국내 ‘초거대AI’ 공개와 뉴스저작권 침해 논란

올 하반기 들어 국내 기업들이 자체 개발한 초거대 인공지능 언어모델(LLM)을 연이어 공개하고 있다. 네이버가 24일 한국어를 챗GPT 보다 6500배 더 많이 학습했다는 토종 생성형 인공지능(AI) 모델인 초거대 LLM '하이퍼클로바X'를 공개됐다. 네이버·카카오와 같은 플랫폼 기업 외에도 여러 분야 기업들이 자체 개발 LLM을 쏟아내고 있다.

지난달 말 LG는 4500만 건에 달하는 논문과 특허 같은 전문 자료를 학습시킨 파라미터(매개변수) 수가 3000억개에 달하는 전문가용 모델 ‘엑사원 2.0′을 공개했다. 엔씨소프트도 지난 16일 국내 게임사 중 처음으로 게임 개발에 특화된 LLM ‘바르코’를 공개했다.

SK텔레콤은 자체 개발한 LLM 에이닷의 기업용 기본 모델을 이달 출시하고, KT도 올해 하반기 초거대 AI ‘믿음’을 출시할 예정이다. 카카오 역시 개발 중인 LLM ‘코(ko)GPT 2.0′을 연내에 공개할 예정이다. 국내 기업들이 앞다퉈 LLM을 출시하면서 치열한 경쟁이 펼쳐질 전망이다.

오픈AI의 ‘GPT’, 구글의 ‘바드’ ‘팜2′, 메타의 ‘라마’ 등 해외 빅테크들의 거대 LLM이 이미 시장을 선도하고 있고, 한국어 서비스와 영어를 비롯한 학습 자료의 양 자체도 훨씬 많아 국내 기업들이 이들에 맞서 특별한 차별화로 경쟁력을 입증할 수 있을지에 관심이 모인다.

HyperCLOVA X는 네이버의 초대규모 AI로, 자체 데이터를 HyperCLOVA X와 결합하면 사용자 니즈에 맞는 응답을 즉각 제공할 수 있다. 네이버 서비스부터 기업형 서비스까지 다양한 AI 프로덕트를 만들어 새로운 사용자 경험과 비즈니스 기회를 만들어 간다.

이번 네이버가 개발한 한국어 기반 생성형 AI인 ‘하이퍼클로바X’ 역시 오픈AI의 ‘챗GPT’와 마찬가지로 뉴스 등으로부터 방대한 데이터를 학습해 자연어를 이해할 수 있는 거대언어모델(LLM)을 기반으로 개발됐다. 이번 공개에서 뉴스 콘텐츠를 이용할 때 대가지급 여부와 기준은 밝히지 않아 ‘저작권 침해’ 논란이 되고 있다. 문제의 핵심은 네이버의 하이퍼클로바X가 AI 학습에 활용했다는 50년 치 제휴 언론사의 기사들이다.

한국신문협회는 AI 개발 업체들이 언론사 동의나 허락 없이 뉴스 콘텐츠를 AI의 데이터 학습으로 사용해 뉴스 저작권이 침해받고 있다고 주장했다. 네이버와 카카오, 구글, 마이크로소프트(MS) 등 정보기술(IT) 기업에 ‘뉴스 저작물에 대한 적정한 대가를 저작권자에 지급하도록 보상 체계를 마련하라’고 요구했다. 정당한 법률 근거 없이 뉴스 콘텐츠를 AI 학습에 이용하는 것은 언론사의 권리 침해라는 입장을 냈다.

네이버는 하이퍼클로바X가 뉴스 50년 치에 달하는 한국어 데이터 학습에 사용하면서 각 개별 언론사들의 동의를 구하지 않았다. 네이버는 기사를 ‘연구’에 활용할 때는 동의를 받지 않아도 된다는 과거 약관(제8조 3항)의 근거를 내세웠다.

하지만 신문 협회는 이 조항이 AI를 예견해 만든 것이 아니고, 언론사들은 네이버가 AI 개발에 뉴스를 활용하고 있다는 사실도 사전에 알지 못했다. 더구나 언론사가 약관에 동의했다고 해서 언론사 이익에 반하는 방식으로 콘텐츠가 활용되는 것까지 허용했다고는 볼 수 없어 불공정 행위라는 주장이다.

전 세계 주요 언론사들도 “뉴스 저작권을 무단으로 사용하지 말라”며 제동을 걸고 있다. 챗GPT 이후 쏟아지는 생성형 AI들이 언론사의 허락 없이 뉴스 기사들을 학습시키자 정당한 사용료를 내라고 주장한 것이다. 로이터·NYT·CNN 등 주요 매체들은 이달 각 뉴스·블로그 사이트에서 챗GPT가 임의로 기사를 수집하지 못하게 막았다. 일부에선 법정 소송까지 예고하고 있다.

세계신문협회는 지난달 공개한 ‘글로벌 AI 원칙’에서 AI개발자는 콘텐츠 소유자의 지식재산권을 존중하고 그 사용에 대해 공정한 보상 권리를 보장하라고 주문했다. 구글은 뉴욕타임스에 3년간 1억달러(약 1300억원)를 내고 기사 데이터를 구매하기로 했다. 미국에선 테크 기업과 개별 언론사의 협상이 이미 시작됐다. 언론사들은 협상이 결렬되면 적극적인 소송으로 대응하겠다는 입장이다.

영국 디지털·문화·미디어·스포츠부는 지난 23일(현지 시각) 주요 미디어 매체 경영진에게 보낸 서한에서 “AI가 기사·콘텐츠를 비롯한 지식재산 저작권을 침해하는 사실에 대한 심각성을 정부도 인지하고 있다”며 “AI 저작권 침해를 방지하고 이에 대처할 강력한 수단을 마련하겠다”고 했다.

국내 토종 거대 AI 학습모델이 가동됐지만 저작권 보호를 위한 법적 장치는 전혀 마련돼 있지 않다. LLM 사업자 입장에서는 생성형 AI는 뉴스 콘텐츠를 간접적으로 인용해 결과를 내놓는 만큼, 직접 인용하는 기존의 저작권 침해 방식과는 다르다는 견해다. 더구나 공익에 부합할 경우 저작권자의 허락 없이 복제하거나 사용해도 저작권 침해가 성립되지 않는다는 '공정이용' 논리를 확대 해석하는 움직임이 강하다. 뉴스가 바로 '공정이용'에 해당한다는 것이다.

하지만 이에 대한 반론도 만만치 않다. 공짜로 뉴스를 학습한 AI의 결과물이 언론사 콘텐츠와 경쟁을 하는 건 바로 불공정이다. 생성형AI의 결과물이 뉴스 저작물의 수요를 대체할 뿐 아니라 영리 또는 상업적 목적으로 사용되는 만큼 ‘공정이용’에 해당되지 않는다는 것이다. 더구나 이번에 공개한 네이버의 생성형AI는 유료 서비스로 알려졌다.

뉴스는 AI 학습의 핵심 수단이다. 고도로 정제된 뉴스 기사의 논리 전개와 문장 배치 등은 AI의 언어 구사력에 결정적인 영향을 미친다. 최수연 네이버 대표도 24일 클로바X 발표 현장에서 “뉴스가 AI 학습과 개발에 필요한 가장 고품질 데이터인 것은 맞다”고 했다. 아무런 비용도 치르지 않고 AI 학습에 이용한 뉴스기사와 수많은 콘텐츠로 인한 수익창출과 유료서비스라는 점에서 저작권 보상은 당연한 논리의 귀결점이다. 토종 AI 발전도 저작권 보호의 토대 위에서 성장해야 할 것이다.

[최충웅 언론학 박사 주요약력]

경희대 언론정보학부 교수

경남대 석좌교수

YTN 매체비평 고정 출연

방송통신심의위원회 연예오락방송 특별 위원장

방송위원회(보도교양/연예오락)심의 위원장

방송통신연구원 부원장

언론중재위원회 위원

KBS 예능국장·TV제작국장·총국장·정책실장·편성실장

중앙일보·동양방송(TBC) TV제작부 차장

기사제보