▲ VL-KE-T5를 활용한 한국어 기반 영상 검색 결과. VL-KE-T5 모델은 언어 및 시각 기반의 사전학습 AI모델을 정렬시킴으로써 언어와 시각을 융합한 업무 처리가 가능하다.

[기계신문] 한국전자기술연구원(KETI)이 인공지능(AI) 연구에 활용 가능한 최첨단 사전학습 모델 ‘VL-KE-T5’를 무료 공개하고 배포했다고 16일 밝혔다.

사전학습 모델은 자기지도학습(Self-supervised Learning)을 통해 대용량 데이터로부터 범용적 의미를 미리 학습하는 인공지능 기법으로, 높은 구축 비용이 필요한 학습이다. 데이터 기반의 학습을 최소화하고 비교적 쉽게 확보 가능한 원시 데이터를 학습에 활용하여 다양한 인공지능 문제에 높은 성능을 보여주고 있다.

‘VL-KE-T5’는 지난해 4월 KETI가 구축하여 무상 공개했던 언어(한국어-영어) 기반 사전학습 모델인 ‘KE-T5’와 구글이 공개한 시각 기반 사전학습 모델인 ‘ViT’의 의미 정보를 정렬시킨 모델이다.

▲ VL-KE-T5의 시각 모델과 언어모델 정렬 방법

KETI는 언어 및 시각 기반 사전학습 모델을 인공지능이 동시에 처리할 수 있도록 두 모델의 상이한 의미 표현을 동일한 의미 단위로 정렬시켰다.

인간은 영상과 언어 정보를 연계해서 정보를 이해하고 표현하는 반면, 지금까지의 인공지능은 영상과 언어를 분리한 단일 지능으로 연구되고 있다. KETI는 영상 데이터와 언어 데이터 간의 의미적 차이를 대조 학습시켜 상이한 모달을 연계하였다.

KETI가 공개한 ‘VL-KE-T5’는 영상 정보와 언어 정보의 연계 처리가 가능한 복합지능 모델이며, 한국어와 영어를 동시에 지원하고 있으므로 두 언어 기반의 업무처리가 모두 가능하다는 강점을 지니고 있다. 또한, 이 모델은 오픈소스 라이선스(Apache 2.0)에 따라 자유롭게 활용 및 배포가 가능하기 때문에 대학·연구소·중소기업 등 국내 인공지능 연구 전반에 확산이 기대된다.

▲ 대조 학습의 개념

국내에서 언어 데이터와 시각 데이터를 함께 처리하는 인공지능 모델의 발표는 KETI의 ‘VL-KE-T5’가 국내 세 번째 사례로, 인공지능 이해 기술 연구에 자유로운 활용이 가능하다. 참고로, 지난 12월 카카오브레인은 ‘민달리(minDALL-E))’를, LG AI연구원은 엑사원(EXAONE) 모델을 공개한 바 있다.

이번 연구를 주도한 KETI 인공지능연구센터 신사임 센터장은 “KETI 인공지능연구센터는 앞으로도 인공지능 사전학습 및 복합지능 연구에 필요한 핵심 인프라를 지속적으로 공개할 것”이라며 “향후 관련 분야 중소기업의 기술 사업화에도 지원을 아끼지 않겠다”고 밝혔다.

한편, 동 모델은 과학기술정보통신부와 정보통신기획평가원, 정보통신산업진흥원의 지원으로 ‘자기지도 학습에 의한 시각적 상식으로 영상에서 보이지 않는 부분을 복원하는 기술’(2021-0-00537) 및 ‘정서적 안정을 위한 인공지능 기반 공감서비스 기술 개발’(S0316-21-1002) 과제를 통해 개발되었다.

기계신문, 기계산업 뉴스채널