월간 인공지능 4호 멀티모달 AI 학습용 데이터 구축 프로젝트(1편)

2025-07-21

안녕하세요, 여러분! 무더운 여름철, 건강히 잘 지내고 계시죠?

지난 월간인공지능 3호까지는 주요 AI 솔루션에 대해 살펴 보았는데요. 이번에는 저희가 진행하였던 AI 데이터 프로젝트를 주제로 멀티모달(Multi-Modal) 데이터 구축에 대해 말씀드리려 합니다.

특히, AI 산업에서 초거대화와 함께 큰 화두인 멀티모달 데이터구축 프로젝트에 대해 소개해 드리려 해요.

레터웍스 개발사 트위그팜은 한국지능정보사회진흥원(NIA)의 ‘초거대AI 확산 생태계 조성사업’ 중 ‘한국적 영상 이해 데이터’ 프로젝트에 주관기관으로 선정되어 사업을 수행했습니다.
금번에 저희가 수행한 프로젝트 과정을 통해 데이터 구축이 왜 필요하며, 어떤 과정을 거치게 되는지, 또 구축 작업이 완료된 데이터는 AI 산업에 어떻게 활용될 수 있는지 소개해 드리겠습니다.

‍

🔍어떤 프로젝트인가요?

멀티모달(Multi-Modal)이란 여러 방식을 동시에 사용하는 것을 의미하는데요. AI 분야에서는 텍스트, 이미지, 음성, 영상 등 서로 다른 형태의 데이터를 함께 이해하고 처리하는 기술을 말하지요. 현재 멀티모달 기술은 AI 서비스 고도화의 핵심으로 간주되고 있습니다.

한국에서도 GPT, Claude와 같은 멀티모달 기반 생성형 AI가 화제가 되면서, 이러한 기술을 뒷받침할 고품질 멀티모달 데이터는 서비스 구축에 있어 더욱 중요해지고 있지요.

정부에서는 누구나 AI 데이터와 API, 컴퓨팅 자원을 활용할 수 있도록 AI 허브(AI Hub)라는 플랫폼을 운영하고 있는데요. 특히 다양한 종류, 방대한 산업 분야의 AI 데이터가 공개되어 있습니다. AI 데이터가 필요한 기업, 개인 누구나 쉽게 접속하여 다운로드 받고 활용할 수 있어요.

‍

<방대한 데이터를 공개하고 있는 AI허브 웹사이트>

‍

저희가 금번 프로젝트에서 구축한 데이터는 이미지 약 41,000장과 이에 대한 상세 캡셔닝 문장 205,000문장으로 구성(국문/영문 각각 205,000문장)되어 있습니다. 단순히 이미지만 구축한 것이 아니라 AI가 이미지와 텍스트를 연결하여 멀티모델 학습에 최적화된 데이터를 만들었습니다.

예를 들어 ‘가을 단풍이 물든 궁궐’이라는 문장은 그 자체만으로도 이미지를 연상시키지만, AI에게는 실제 이미지와 함께 학습시켜야 ‘가을’, ‘단풍’, ‘궁궐’이 어떤 시각적 특징을 가지는지 정확히 인식할 수 있습니다. 이러한 특성을 고려하여 ‘이미지 ↔ 텍스트’를 한 쌍으로 구성한 것이죠.

‍

<이미지와 텍스트로 구성된 멀티모달 데이터 예시>

‍

참고로 저희가 구축한 데이터는 AI Hub에서 누구나 다운로드 받아 활용할 수 있답니다!

‍

https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=71866

‍

‍

🇰🇷왜 한국적 영상 데이터일까요?

세계적으로 공개되어 있는 멀티모달 데이터셋은 대체로 서구권 문화를 기반으로 구축되어 왔습니다. 따라서 ‘한옥’, ‘한복’, ‘경복궁’과 같은 한국적 개념을 AI가 학습하기는 쉽지 않은 현실이지요.

이런 이유로 한국 고유의 영상 데이터는 아직까지 충분히 확보되지 않아 관련 기술 개발과 서비스 상용화에 걸림돌로 작용하고 있습니다.

이번에 저희는 한국의 대표 방송국인 SBS와 계약을 체결, 방송 콘텐츠를 확보하고, 유튜브, 스톡 영상에서도 데이터를 수집하였습니다. 그 결과 자연, 지역과 랜드마크, 음식, 스포츠, 문화 등 한국적 요소를 다양하게 담은 총 7,822건의 영상을 확보할 수 있었습니다. 이를 통해 AI가 한국 고유의 이미지와 문화를 더욱 정확히 이해할 수 있는 기반을 마련할 수 있었답니다.

‍