“지피티·클로드 보다 똑똑”…LG, 멀티모달 AI ‘엑사원 4.5’ 공개

승인 2026-04-09 10:00:05

LG의 멀티모달 인공지능(AI) ‘엑사원’이 더 똑똑하고 강력하게 진화했다. 오픈AI의 지피티와 앤트로픽의 클로드 소넷 등의 성능을 일부 앞섰다는 평가 결과도 나왔다.

LG AI연구원은 9일 텍스트와 이미지를 동시에 이해하고 추론하는 멀티모달 AI ‘엑사원 4.5’를 글로벌 오픈소스 플랫폼 허깅페이스에 공개했다. 엑사원 4.5는 LG AI연구원이 자체 개발한 비전 인코더와 거대언어모델(LLM)을 하나의 구조로 통합한 비전-언어모델이다.

엑사원 4.5는 계약서와 기술도면, 재무제표, 스캔문서 등 산업 현장에서 실제 다루는 복합 문서를 정확하게 읽고 추론하는 능력에 강점이 있다. AI 모델의 시각 처리와 추론 성능을 평가하는 벤치마크 점수 결과도 이를 증명한다. 엑사원 4.5는 STEM(과학·기술·공학·수학) 성능을 측정하는 5개 지표 평균 77.3점을 기록했다. 미국 오픈AI 지피티5-mini(73.5점), 앤트로픽 클로드 소넷 4.5(74.6점), 중국 알리바바 큐웬3 235B(77.0점)를 모두 앞섰다.

일반 시각 이해를 측정하는 3개 지표와, 이미지와 텍스트가 결합된 인포그래픽을 비롯해 전문 문헌 속 복합 정보를 읽어내는 문서 이해 및 추론 성능 평가 지표 5개를 포함한 13개 지표 평균 점수에서도 지피티5-mini와 클로드 소넷 4.5, 큐웬3-VL을 상회하는 성능을 보였다.

특히 코딩 성능 대표 지표인 라이브코드벤치 v6에서는 81.4점으로 구글의 최신 모델 젬마 4(80.0점)를 넘었으며, 복잡한 차트를 분석하고 추론하는 능력을 평가하는 ChartQA Pro에서는 62.2점으로 동급 모델과의 비교에서 글로벌 경쟁력을 입증했다.

LG AI연구원 관계자는 “시각 능력 평가 지표에서 높은 평균 점수를 기록했다는 것은 AI가 문서 속 글자나 비정형 데이터를 단순히 인식하는 수준을 넘어 맥락을 파악하고 질문에 답할 수 있는 이해력을 갖췄다는 의미”라고 설명했다.

효율성 측면에서도 주목할 만한 결과를 보였다. 엑사원 4.5는 330억 개 파라미터 규모(33B)로 지난해 말 공개한 ‘K-엑사원’의 약 7분의 1 크기이지만, 텍스트 이해 및 추론 영역에서 동등한 수준의 성능을 달성했다. 이는 LG AI연구원이 자체 개발한 하이브리드 어텐션 구조와 멀티 토큰 예측 기반의 고속 추론 기술을 적용한 결과다.

LG AI연구원은 한국어와 영어 외에 스페인어, 독일어, 일본어, 베트남어까지 공식 지원 언어를 확장했다.

LG AI연구원은 지난 2021년 12월 국내 최초로 멀티모달 AI 모델인 ‘엑사원 1.0’을 개발한 바 있다. 이후 꾸준히 기술력을 축적하며 신모델을 공개해왔다. 엑사원 4.5는 독자 AI 파운데이션 모델 프로젝트에서 개발 중인 ‘K-엑사원’의 모달리티 확장을 위한 준비 단계다. LG AI연구원은 오는 8월 프로젝트 2차수 종료 후 3차수 진출이 확정되면 본격적으로 모달리티 확장에 나설 계획이다. 궁극적으로 엑사원을 가상 환경을 넘어 물리적 세계를 이해하고 판단하는 피지컬 인텔리전스로 발전시키는 것을 목표로 하고 있다.