앞서 1편과 2편에서 멀티모달 데이터 구축의 의미와 용도, 구축 절차에 대해 소개해 드렸습니다.
이제 그 최종 결과물의 효용 가치(유효성)를 어떤 방식으로 검증하였는지, 그리고 얼마나 정확한지에 대해 말씀드리려 합니다.
🧠품질 검증 모델 선정
품질 검증은 단순 확인 작업이 아닙니다. 실제 AI 모델에 적용했을 때 얼마나 적합한지 성능 지표를 통해 유효성을 검증해야 하지요.
저희는 멀티모달 학습에서 범용적으로 활용되는 최신 SOTA 아키텍처를 참고해서 한국어/영어 멀티모달 학습에 적합하도록 설계하였습니다.
저희가 참고한 최신 아키텍처는 CLIP4Clip, InternVideo2, VAST 같은 것들인데요. 저희가 구축한 멀티모달 데이터는 텍스트-이미지가 한 쌍을 이루는 특성이 있지요. 그래서 VAST 모델을 활용하여 ‘텍스트-이미지’ 기반으로 이미지 검색과 캡셔닝을 동시에 평가하였습니다.
사실 이러한 시도는 매우 도전적이었습니다. 한국어 텍스트에 대한 멀티모달 검색이 국내에서 많이 부족한 현실이기 때문이지요.
그렇지만 저희는 효율적이면서도 최적의 정확도를 구현할 수 있는 라벨링 프로세스를 채택하였기에 자신감을 가지고 도전할 수 있었답니다!
<멀티모달 학습에 참고한 최신 아키텍처>
📊유효성 평가 지표 선정
데이터 유효성 평가를 위해 멀티모달 검색에서 가장 많이 쓰이는 지표를 사용하였습니다. 구제적으로 Recall@5, Median Rank의 두 가지로, 가장 객관적인 지표로 평가받고 있습니다.
Recall@5는 사용자가 쿼리를 입력했을 때 상위 5개의 검색 결과 중 몇 개가 실제 정답(ground truth)의 집합 안에 포함되는지의 비율로 측정하는 지표이며, 저희는 영어 캡션 70%, 한국어 캡션 50% 이상에 도달하는 것을 목표로 하였습니다.
Median Rank는 검색된 video 구간, 혹은 frame을 순서대로 나열한 후 올바른 결과가 몇 번째 순위로 검색되는지를 보여주는 지표입니다. 수치가 낮을수록 우수한 결과임을 입증할 수 있는데요. 저희는 5 이하의 순위를 목표로 하였습니다.
<유효성 평가에 활용한 지표>
저희는 위와 같은 방법을 통해 구축한 데이터셋이 실제 AI 학습에 활용되었을 때의 효용성을 수치화하여 입증할 수 있었습니다.
🏆최종 검증 결과
최종적으로 저희 기대를 뛰어넘는 결과를 도출할 수 있었습니다. 영어 캡션 기준 Recall@5는 83.3%, 한국어 캡션 기준 Recall@5는 61.6%를 달성하였는데요.
이는 기존 사전학습(pre-trained) 모델 대비 영어는 약 30%, 한국어는 무려 40% 가량 향상시킨 결과였습니다.
저희가 설계한 자동화 라벨링과 휴먼 라벨링 절차의 우수성을 수치로 검증하게 된 것입니다.
<금번 프로젝트 결과물의 유효성 검증 결과>
이로써 저희는 ‘한국 고유의 문화를 더 잘 이해하는 AI’, ‘한국어 프롬프트에 더 자연스럽게 반응하는 AI’를 위한 멀티모달 데이터의 유효성을 훌륭히 입증하였다고 자신 있게 말씀드릴 수 있습니다.
금번 포스팅을 통해 한국적 멀티모달 데이터 구축 프로젝트를 소개하고, 그 과정과 결과를 살펴 보았습니다.
저희가 구축한 데이터들은 AI허브에 공개되어 있으며, 누구나 자유롭게 이용하실 수 있습니다.
링크 👉
https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=71866
특히 멀티모델 검색, 문화유산 복원, 한국어 기반 생성 AI 등 다양한 산업, 연구 분야에서 활용될 수 있으니 해당되시는 분들의 많은 관심 부탁드려요!
앞으로도 저희는 한국어 기반 AI 데이터, 솔루션과 서비스 전문 기업으로서 한국적 특성을 더 잘 이해하는 AI 개발에 계속 힘쓰겠습니다. 또한 여러 언어를 넘나드는 다국어 AI 솔루션과 서비스 제공을 위해서도 더욱 노력하겠습니다.
지금까지 읽어 주셔서 감사합니다. 다음 달에 만나요!