허프포스트코리아

‘국가대표 AI’로 뽑힌 5개 기업의 AI들로 하여금 수능 수학 문제를 풀어보게 했다. 죄다 낙제점이었다.

김종락 서강대 수학과 교수 연구팀은 5개 ‘국가대표 AI’ 기업의 대형언어모델(LLM)을 대상으로 수능 수학 20문제와 논술 30문제를 풀게 했다. 챗GPT 등 해외 5개 모델과 경쟁을 시키는 자리였다.

수능 수학 문제 20개는 4개 영역(공통과목, 확률과 통계, 미적분, 기하)에서 최고난도 문제 5개씩을 뽑아 만들었다. 논술 30문제는 국내 10개 대학 기출 문제, 인도 대학 입시 문제 일본 도쿄대 공대 대학원 입시 수학 문제를 골고루 배치했다.

채점 결과 업스테이지가 58점으로 1위를 차지했다. 네이버가 26점으로 2위, LG AI연구원과 SK텔레콤이 24점을 맞아 공동 3위, 2점을 기록한 엔씨소프트가 4위를 기록했다.

5개 기업(업스테이지, 네이버, LG AI연구원, SK텔레콤, 엔씨소프트)은 올해 8월 과학기술정보통신부에서 ‘독자 AI 파운데이션 모델(소버린AI)’ 구축 프로젝트에 최종 선정된 정예팀이다.

이들이 개발한 AI 모델은 6개월마다 과기부의 평가를 거쳐 1팀씩 탈락하게 된다. 2027년까지 최종 2팀만 살아남는 구조다.

이번 연구팀의 발표는 정부 공식 평가는 아니지만 민간 중간점검 성격을 갖는다. 현재 업스테이지와 네이버가 각각 1, 2위를 차지했지만 네이버의 경우 3위와의 격차가 크지 않아 끝까지 안심할 수 없을 것으로 보인다.

해외 모델과 비교할 때 국내 모델 성능이 상대적으로 낮은 것도 문제다. 같은 문제를 푼 5개 해외 모델(오픈AI, 구글, 클로드, 그록, 딥시크)의 평균 점수는 82.8점인데 비해 국내 AI 모델 평균 점수는 26.8점을 기록해 격차가 3배 이상 벌어졌다.

이참에 도시철도 적자 축소 방안도 고민하면 어떨까

석유화학 사업의 갈림길