SKT, 한국어 최고 수준 에이닷 엑스 4.0 공개
KT, ‘한국적 AI’ 믿:음 2.0 오픈소스 허깅페이스에

[편집자 주] 컴퓨터가 디지털 세상을 열며 우리 삶을 바꿔놓은 것처럼 인공지능(AI)을 빼놓고는 기술 발전을 말할 수 없는 시대다. 구글·MS가 독점한 글로벌 플랫폼 시장에서 네이버와 카카오가 우리 플랫폼을 지켜내고 있듯, 글로벌 AI가 지배하는 시장에서 우리 언어와 문화·기술로 특화한 ‘소버린 AI’가 일정 공간을 확보해야 할 필요성이 제기되고 있다. 이와 관련해 소버린 AI 모델 개발과 활용 또 이를 둘러싸고 구축될 소버린 AI 생태계에 대한 정보와 논란을 향후 지속적으로 살펴본다.
정부가 인공지능(AI) 3강을 목표로 ‘소버린 AI’ 개발과 생태계 구축에 전폭적 지원 정책을 펼치는 가운데 통신업계가 한국어와 우리 문화에 특화한 AI 모델을 앞다퉈 내놓고 있다.
먼저 SK텔레콤이 3일 현존 거대언어모델(LLM) 중 최고 수준의 한국어 처리 능력을 가진 한국어 특화 모델 에이닷 엑스(A.X) 4.0을 오픈소스로 공개했다.
KT도 이날 한국어의 언어적·문화적 특성을 반영해 ‘한국적 AI’를 표방하며 자체 개발한 LLM '믿:음 2.0'의 오픈소스를 글로벌 AI 개발자 플랫폼 허깅페이스(HuggingFace)를 통해 공개할 예정이라고 밝혔다.
SKT는 이날 오전 허깅페이스를 통해 에이닷 엑스 4.0의 표준 모델과 경량 모델 2종의 오픈소스를 공개했다.
표준 모델은 720억개, 경량 모델은 70억개의 매개변수를 갖췄다. 이용자들이 사용 목적에 맞게 선택할 수 있다.
토크나이저(Tokenizer·문장의 구조를 분석해 토큰으로 분할하는 작업 도구)를 SKT가 자체 설계해 적용한 에이닷 엑스 4.0은 높은 수준의 한국어 처리 역량을 구현했다. 자체 테스트 결과 같은 한국어 문장을 입력했을 때 오픈AI의 챗GPT-4o보다 약 33%가량 높은 토큰 효율을 기록했다. 이는 다른 LLM보다 높은 정보 처리용량에 비용을 줄여 경제성을 갖췄단 뜻이다.
또 한국어 능력 평가 벤치마크인 '한국어 대규모 다중과제 언어 이해 평가'(KMMLU)에서 78.3점을 기록해 72.5점을 받은 GPT-4o보다 우수한 성능을 보였다. 한국어 및 한국 문화 벤치마크인 ‘클릭’(CLIcK)에서도 83.5점을 받아 GPT-4o(80.2점)보다 더 높은 한국 문화 이해 능력을 나타냈다.
SKT는 에이닷 엑스 4.0 개발 과정에서 대규모 학습(CPT·Continual Pre-Training)의 전 과정을 외부와 연동없이 자체 데이터로 학습해 데이터 주권도 확보했다.
이미 에이닷 엑스 4.0을 지난 5월부터 에이닷 통화 요약에 적용해 활용하고 있는 SKT는 앞으로 이를 SK그룹 내 다양한 서비스에 적용할 계획이다.
SKT는 이번 에이닷 엑스 4.0 지식형 모델의 오픈소스 공개와 함께 추론형 모델 발표를 앞두고 있다. 이달 중 수학 문제 해결과 코드 개발 능력을 강화한 추론형 모델을 공개하고, 이미지와 텍스트를 동시에 이해하고 처리할 수 있는 수준까지 모델을 업데이트할 계획이다.

이날 오픈소스 공개 일정을 밝힌 KT의 믿:음 2.0은 우리나라의 사회적 맥락과 같은 무형 요소와 한국어 고유의 언어적·문화적 특성 등을 반영해 학습한 이른바 ‘소버린’ 의미에 꼭 맞는 모델이다.
믿:음 2.0도 사전 학습부터 자체적으로 만든 한국적 독자 AI 모델로 고품질 한국어 데이터를 준비하는 과정에서 모든 저작권을 확보했다.
믿:음 모델은 KT와 고려대가 공동 개발한 한국어 AI 역량 평가 지표인 ‘코-소버린’(Ko-Sovereign) 벤치마크에서 유사 규모의 국내 기존 모델과 글로벌 최고 수준의 오픈소스 모델보다 높은 점수를 받았다. 코-소버린은 언어·문화·사회·역사 등의 한국적 맥락을 반영한 전문가 수준의 문항으로 구성됐다.
믿:음 역시 한국어의 구조와 언어학적 특성을 반영한 토크나이저를 자체 개발해 적용했고 고려대 민족문화연구원과 협업해 학술적 신뢰도를 높였다.
KT는 믿:음 개발 단계에서 리벨리온과 긴밀히 협력해 국산 AI 반도체 적용을 최적화했다. 리벨리온은 2023년 <포브스>가 ‘2023년 가장 빠르게 성장하는 한국 스타트업’으로 선정한 AI 칩과 컴파일러 등 AI 소프트웨어를 설계·개발하는 업체다.
믿:음 모델은 매개변수 115억개 규모의 ‘믿:음 2.0 베이스(Base)’와 매개변수 23억개의 ‘믿:음 2.0 미니(Mini)’ 2종으로 모두 한국어와 영어를 지원한다. 믿:음 2.0 베이스는 범용 서비스에 적합한 모델로 한국 특화 지식과 문서 기반의 질의응답에서 강력한 성능을 나타낸다. 믿:음 2.0 미니는 베이스 모델에서 선별한 지식을 학습한 소형 모델이다.
신동훈 KT 생성형 AI 랩장(CAIO·상무)은 "믿:음 2.0은 일반적인 생성 능력을 갖추면서도 한국의 문화와 언어를 깊이 이해하도록 고도화된 AI 모델"이라며 "이는 KT가 국내 사용자들에게 고성능 한국적 AI 모델에 대한 새로운 대안을 제시하는 한편, 글로벌 경쟁력을 갖추게 될 중요한 발판이 될 것"이라고 말했다.
‘소버린 AI 관점’에서 AI 모델의 맨 첫 단계부터 전 과정을 직접 구축하는 ‘프롬 스크래치’(From Scratch) 방식을 병행해 개발을 진행하고 있는 SKT의 김지원 AI 모델 랩장은 이날 "SK텔레콤의 다양한 서비스를 고도화하고, 기업 시장에서 한국어 특화 LLM으로 국내 비즈니스 환경에 최적화된 모델이 될 수 있도록 지속적인 기술 개발을 추진할 계획”이라고 밝혔다.
- [소버린 AI 생태계]①이재명 정부 인사와 정책에 담긴 '소버린' 지향
- 네이버 출신·AI 전문가 대거 '깜짝' 발탁…IT업계 기대감 고조
- [소버린 AI 생태계]③한국 '소버린 AI' 투자, 2024→2026년 두 배로
- [소버린 AI 생태계]④ 언어·추론 통합 '국가대표' AI, 엑사원 4.0 공개
- [소버린 AI 생태계]⑤위협 현실화·병력 감소...'한국형 방산 AI' 필수
- [소버린 AI 생태계]⑥엑사원 생태계 구축 LG, 멀티모달·의료 AI 첫 공개
- [소버린 AI 생태계]⑦'K-AI' 참가 기업 모델에 글로벌 호평...'소버린' 청신호
- 단통법 폐지 통신시장서 '보안' 앞세운 '고객 잡기' 경쟁 치열
- [소버린 AI 생태계]⑧ 'K-AI' 5곳 추린다…뽑히면 '국민 공개 오디션'
- [소버린 AI 생태계]⑨게임 강자의 국대 도전...배그 vs 리니지
- [소버린 AI 생태계]⑩네이버·LG·SKT·NC AI·업스테이지, '대국민 오디션'
- [소버린 AI 생태계]⑪'AI붐' 소외 전력 삼성, '국대 AI' 경쟁 불참 이유
그래도 삭제하시겠습니까?