월간 인공지능 4호 멀티모달 AI 학습용 데이터 구축 프로젝트(2편)

2025-07-24

안녕하세요.

지난 1편에서 한국적 영상 데이터 구축 프로젝트와 멀티모달 데이터가 무엇이며, 어떻게 활용될 수 있는지를 소개해 드렸는데요. 2편에서는 이미지 선정부터 GPT 기반 자동 캡셔닝, 전문가 검수 절차까지 실제 구축 과정을 말씀 드리겠습니다.

🖼️데이터 수집과 이미지 선정

영상 데이터 수집에서 가장 우선적으로 고려할 사항은 저작권인데요. 저희는 총 7,822건의 영상 데이터 저작권을 확보할 수 있었습니다.

동식물, 지역과 랜드마크, 음식, 문화예술, 스포츠와 같이 다양한 주제를 고르게 포함하도록 기획하여 SBS 아카이브나 유튜브 등에서 데이터를 확보하였습니다.

영상에서 이미지를 약 41,000장(프레임) 추출하였는데요. 추출 시 이미지 퀄리티를 높이고, 중복 장면을 배제하기 위해 ①HSV 색 공간 차이 활용, ②장면 전환 감지와 같은 기계적 정제 방식을 적용하였습니다.

이미지 추출 후에는 전문가(휴먼) 검수를 수행하는데요. 전문가 검수는 두 가지 검토에 중점을 두었습니다. ①추출한 이미지에 포함될 수 있는 개인정보나 사생활 정보에 대한 분류, 그리고 ②한국적 요소가 부족하거나 중복된 이미지에 대한 검토입니다.

전문가 검토 작업을 통해 개인정보 비식별화 처리를 수행하여 법적 안정성을 확보하고, 데이터 품질을 향상시킬 수 있었습니다.

‍

<데이터 수집과 이미지 선정 프로세스>

‍

🤖자동 라벨링(캡셔닝 by GPT)

AI 데이터 구축에 있어 가장 어려운 작업은 라벨링입니다. 40,000건이 넘는 이미지를 검토하고, 라벨링하는 업무를 사람이 직접 한다면 많은 시간이 걸릴 수 있고, 업무 중 오류(휴먼 에러)가 발생할 수 있기 때문인데요.

저희는 레터웍스(LETR WORKS)를 업무에 도입하여 어려움을 해결하였습니다. 레터웍스는 콘텐츠 재창작 솔루션으로 원작 콘텐츠의 현지화, 다양화 업무에 주로 활용되고 있는데요. 업무 할당 등 프로젝트 관리, 로그 관리, 번역, 자막 생성 등의 기능을 탑재하고 있어 데이터 라벨링 자동화 저작도구로도 활용될 수 있답니다!

‍

<레터웍스 솔루션의 데이터 라벨링 자동화(프로젝트 관리) 기능 예시>

‍

특히 데이터 품질을 최대한 향상시키기 위해 기존 레터웍스 솔루션에 GPT 기반 자동 캡셔닝 기능을 적용하였습니다. 그리고 JSON 구조에 각 이미지에 대한 상세 설명을 5문장씩 담았습니다.

‍

한 예시를 보여 드리겠습니다. 레터웍스가 다음과 같은 이미지를 어떻게 설명하였을까요?

‍

①한옥 지붕 위로 하얀 눈이 소복이 내려앉아 있다.
②뒤쪽에는 산이 보이며 나무에도 눈이 쌓여 있다.
③고즈넉한 골목길에 전통 등이 은은하게 켜져 있다.

‍

라고 설명하였습니다. 여기서 끝나는 게 아니라 영문 라벨링을 위한 번역도 필요한데요. 레터웍스는 다음의 번역 결과를 제시하였습니다.

‍

①White snow lies softly on the hanok roofs.
②Snow-capped mountains are visible in the background, and the trees are also covered in snow.
③Traditional lanterns cast a soft glow along the tranquil alleyway.

이처럼 이미지의 맥락과 디테일을 충분히 담아서, AI가 상황과 분위기까지 학습할 수 있도록 설계하였습니다.

‍