"챗GPT 다음은 너"…딥시크, 제미나이 데이터 무단활용 의혹
호주개발자 "어휘·추론과정 유사…제미나이로 갈아탔을 것"
'AI 슬롭'에 데이터 무단활용 확산…美기업들 보안조치 강화
- 김민석 기자
(서울=뉴스1) 김민석 기자 = 중국 딥시크(DeepSeek)의 최신 추론 모델 'R1-0528'이 구글의 '제미나이'(Gemini) 데이터를 무단으로 활용했다는 의혹이 제기됐다.
9일 IT 업계와 외신에 따르면 호주 멜버른의 AI 개발자 샘 페이크(Sam Paech)는 자신의 X(옛 트위터)에 딥시크의 R1-0528 모델이 구글 제미나이 2.5 프로와 유사한 어휘를 선호한다는 분석 결과를 공개했다.
페이크는 "딥시크가 챗GPT에서 제미나이 기반 합성 데이터를 활용하기로 한 것으로 보인다"고 언급했다.
AI 평가 도구 '스피치맵'(SpeechMap)의 개발자도 "딥시크 모델의 내부 추론 과정인 '트레이스'(traces)가 제미나이와 유사하다"고 지적했다.
이외 미국의 개발자들도 딥시크가 제미나이의 사고 과정을 모방했을 가능성을 점치고 있다.
딥시크의 데이터 무단 사용 의혹은 이번이 두 번째다.
딥시크의 V3 모델이 자신을 '챗GPT'라고 언급하는 현상이 지난해 12월부터 올해초까지 빈번하게 발생하면서 딥시크가 오픈AI 채팅 로그를 훈련 데이터로 사용했다는 의혹이 제기됐다.
마이크로소프트(MS) 보안팀은 이후 오픈AI API로 만든 데이터를 '증류'(distillation)에 활용하기 위해 일부 개발자들이 대규모로 추출한 정황을 포착했다고 발표했다. AI 업계에서 증류는 최고성능 AI 모델의 출력 데이터를 추출해 소형 모델을 훈련시키는 기법이다.
MS는 해당 개발자들이 딥시크와 연관이 있을 것으로 봤다. 다만 증류 기법 자체는 업계의 관행인 점 등을 고려해 소송까지 이어지진 않은 것으로 전해진다.
오픈AI는 자사 모델 출력물을 활용해 경쟁 모델을 개발하는 행위를 서비스 약관으로 금지하고 있다.
전문가들은 웹상에 AI 생성 콘텐츠가 범람하는 'AI 슬롭' 현상이 증류 기법을 비롯한 데이터 무단 활용을 부추기고 있다고 분석했다.
수많은 AI 챗봇이 대량의 저품질 콘텐츠를 생성·배포하면서 고성능 AI 모델 훈련에 활용할 수 있는 데이터를 수집하기 점점 어려워지고 있어서다.
네이선 램버트 AI2(미국 비영리 AI 연구소)의 연구원은 "GPU가 부족하지만, 자금은 풍부한 기업의 경우 최고 성능의 API 모델로부터 대량의 합성 데이터를 만들어 모델을 훈련할 유인이 충분하다"고 말했다.
MS·오픈AI·구글 등 빅테크들은 데이터 무단 수집·활용을 막는 조치를 강화하고 있다.
오픈AI는 올해 4월부터 특정 고급 모델에 접근하려면 정부 발행 신분증을 통한 인증 절차를 의무화하며 중국은 인증 절차 지원 국가에서 제외했다. 구글은 최근 AI 스튜디오 개발자 플랫폼에서 모델의 추론 과정을 요약 처리하기 시작했다.
ideaed@0e7f.shop
Copyright ⓒ 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용금지.