AI 모델이 한국 사회의 문화적 맥락까지 고려해 안전하게 작동하는지 검증할 수 있는 평가 도구를 공개하며, 국내 AI 안전성 연구를 이끌어나간다.
KT 직원들이 'KSAFE-MM' 개발을 진행하는 모습 ⓒ KT
KT가 멀티모달대형언어모델(MLLM) 벤치마크 'KSAFE-MM'을 공개했다고 16일 밝혔다.
MLLM이란 텍스트·이미지·음성 등 다양한 형태의 데이터를 통합해서 종합적으로 이해하고 추론할 수 있는 인공지능 모델을 말한다. 벤치마크는 이러한 인공지능 모델이 주어진 과제를 얼마나 정확하게 수행하는지, 답변에 위험 요소는 없는지 측정하는 평가 도구를 의미한다.
KSAFE-MM은 KT와 고려대가 공동 개발했으며 KT는 안전 리스크 분류 체계 설계, 평가 지표 및 로직 구현 등 연구 전반에 핵심적 역할을 수행했다.
KSAFE-MM은 총 1만4135개의 평가 샘플로 구성된 국내 최대규모 한국어 멀티모달 안전성 평가 데이터셋으로, 멀티모달 AI 모델의 안전성을 한국 사회 이슈와 문화적 맥락을 반영해서 평가한다. 글로벌 리스크를 한국적 맥락으로 변환한 'KSAFE-MM-G'와 전세 사기·독도 분쟁 등 한국 고유 이슈를 반영한 'KSAFE-MM-C'로 이뤄져 있다.
KSAFE-MM의 특징은 모든 평가 과정을 자동화했다는 점이다. 기존 벤치마크는 수동 검수 중심이라 비용이 많이 들고 효율성도 높지 않다. 하지만 KSAFE-MM은 현지 커뮤니티에서 민감한 주제를 자동으로 찾아내고, AI의 윤리 장벽을 교묘하게 뚫어볼 수 있는 함정 질문까지 시스템이 스스로 생성해 검증한다.
이는 특정 문화권 전문가 없이도 현지 특성을 반영한 안전성 벤치마크를 신속하게 구현할 수 있다는 의미다. KT·고려대 공동 연구진은 동일한 자동화 시스템을 일본어에 적용한 파일럿 실험(JSAFE-MM-C)을 통해 전 세계 어느 문화권에도 즉시 적용 가능함을 실증했다.
연구결과와 벤치마크는 아카이브(arXiv)와 허깅페이스에 공개돼 누구나 활용할 수 있다.
박재형 KT AX미래기술원 Frontier AI Lab장 상무는 "안전성 벤치마크의 공개는 단순한 데이터 배포를 넘어 AI 안전성 연구 생태계 전반이 함께 발전할 수 있는 기반을 만드는 일"이라며 "KSAFE-MM이 학계와 산업계에서 한국어·한국문화 맥락의 AI 안전성을 검증하는 공통 기준으로 자리잡길 기대한다"고 말했다.