네이버의 하이퍼클로바X 학습, 비밀스러운 논란

네이버 하이퍼클로바x 저작권 논란


"AI 토큰과 데이터 다루는 비결"

"하이퍼클로바의 한국어 데이터 세트 크기"

"네이버와 오픈AI, AI 학습과 라이선스 대비"

네이버가 최신 AI 거대언어모델 '하이퍼클로바X'의 학습 기준을 비밀스럽게 감싸고 있는 가운데, 그 이전 버전인 '하이퍼클로바'의 학습 데이터에 대한 흥미로운 사실이 밝혀졌습니다. 2021년 EMNLP에서 발표된 연구 논문에 따르면, 하이퍼클로바는 총 5,618억 개의 토큰으로 사전 학습되었습니다. 특히, 이 학습 데이터 중에서 가장 큰 비중을 차지한 것은 블로그 데이터로, 총 2,736억 개의 토큰이 블로그로부터 나왔습니다.


데이터의 품질과 다양성은 AI 모델의 성능에 중요한 영향을 미칩니다. 그래서 이미 구성된 '모두의 말뭉치'와 같은 한국어 데이터 세트가 하이퍼클로바의 학습 데이터에 포함되었습니다. 이 한국어 데이터 세트는 놀랍게도 1.96테라바이트로, 한국어 위키피디아의 2,900배에 해당하며, 한국어 뉴스 50년치에 해당합니다.


네이버는 하이퍼클로바X가 계속해서 업데이트된 데이터를 학습하며 고도화되고 있다고 설명하며, 미국의 뉴스 통신사 AP통신과 라이선스 계약을 체결하는 등 AI 학습과 관련한 논란을 해결하려는 모습을 보이고 있습니다.


하지만 AI 학습과 관련한 라이선스 문제는 국내외에서 논란이 되고 있는 중입니다. 이에 대한 해결책은 아직 모호한 상태이며, AI 기술의 발전과 함께 더 많은 논의가 필요한 시기로 보입니다.

댓글