허프포스트코리아

LG가 인공지능(AI) 모델 고도화를 통해 중장기적으로 '독자 AI 파운데이션 모델 프로젝트(독파모)' 경쟁력을 놓이는 데 힘을 쏟는다.

LG는 AI연구원을 통해 새로운 멀티모달 AI 모델 '엑사원(EXAONE) 4.5'을 개발했다. 멀티모달은 텍스트, 이미지, 음성 등 서로 다른 형태의 데이터를 복합적으로 이해하고 처리해 인간처럼 사고하도록 돕는 기술을 말한다.

'텍스트와 이미지를 동시에 이해하고 추론' LG 멀티모달 AI '엑사원 4.5' 공개, 독파모 경쟁력 키운다 — LG AI연구원이 '엑사원(EXAONE) 4.5'를 내놓고 멀티모달 AI 개발에 속도를 낸다. ⓒ 연합뉴스.

LG AI연구원의 엑사원 4.5는 성능평가 결과 글로벌 주요 AI 모델보다도 나은 역량을 보인 만큼 국가 AI 표준 모델을 육성하기 위한 독파모 경쟁에서 기술적 우위를 확보할 수 있을지 주목된다.

LG AI연구원은 9일 텍스트와 이미지를 동시에 이해하고 추론하는 멀티모달 AI 모델 엑사원 4.5를 공개했다.

엑사원 4.5는 LG AI연구원이 2021년 12월 국내 최초 멀티모달 AI 모델인 '엑사원 1.0'을 내놓은 뒤부터 축적한 기술력을 바탕으로 자체 개발한 비전언어모델(VLM)이다. 비전언어모델은 비전 인코더(정보 해석)와 거대언어모델(LLM)을 하나의 구조로 통합한 것이다. 엑사원 4.5는 계약서, 기술 도면, 재무제표, 스캔 문서 등 산업 현장에서 실제로 다루는 복합 문서를 정확하게 읽고 추론하는 능력에 강점을 지닌다.

LG AI연구원은 이날 엑사원 4.5의 시각 처리 및 추론 성능을 평가하는 벤치마크 점수 결과가 주요 AI 모델을 앞서고 있다는 평가 결과도 함께 공개했다.

엑사원 4.5는 과학·기술·공학·수학(STEM) 성능을 측정하는 지표의 평균 점수 77.3점을 기록했다. 미국 오픈AI의 '지피티(GPT)5-미니(73.5점)', 앤트로픽의 '글로드 소넷(74.6점)', 중국 알리바바의 '큐웬3 235B(77.0점)'를 모두 앞선 수치다. 특히 코딩 성능의 대표 지표(라이브코드벤치 v6)에서는 81.4점으로 구글의 최신 모델인 '젬마4(80.0점)'도 넘었다.

LG AI연구원에 따르면 엑사원 4.5는 일반 시각 이해를 측정하는 지표, 이미지와 텍스트가 결합한 인포그래픽 등 전문 문헌의 복합정보를 읽어내는 지표 등 13개의 펑균 점수에서도 지피티5-미니, 클로드 소넷을 웃도는 성능을 보였다.

LG AI연구원은 이번 모델을 기반으로 독파모 참여 과정에서 개발하고 있는 'K-엑사원'의 모달리티 확장을 준비하겠다는 계획을 세웠다.

LG AI연구원은 1월 결과가 발표된 독파모 1차 평가에서 최고점수를 받으며 경쟁력을 인정받았다. 올해 8월 2차 평가에서도 통과하면 3차 평가부터 본격적으로 모달리티 확장에 나서기로 했다. 궁극적으로는 AI를 통해 물리적 세계를 이해하고 판단하는 '피지컬 인텔리전스'로 발전하겠다는 목표를 두고 있다.

이진식 LG AI연구원 엑사원랩장은 "엑사원 4.5는 LG AI가 텍스트를 넘어 시각 정보까지 이해하는 멀티모달 시대로 진입했음을 보여주는 모델"이라며 "이를 시작으로 음성과 영상, 물리 환경까지 AI의 이해 범위를 확장해 산업 현장에서 실질적으로 판단하고 행동하는 AI를 만들어 가겠다"고 말했다.