안녕하세요.
지난 1편에서 한국적 영상 데이터 구축 프로젝트와 멀티모달 데이터가 무엇이며, 어떻게 활용될 수 있는지를 소개해 드렸는데요. 2편에서는 이미지 선정부터 GPT 기반 자동 캡셔닝, 전문가 검수 절차까지 실제 구축 과정을 말씀 드리겠습니다.
🖼️데이터 수집과 이미지 선정
영상 데이터 수집에서 가장 우선적으로 고려할 사항은 저작권인데요. 저희는 총 7,822건의 영상 데이터 저작권을 확보할 수 있었습니다.
동식물, 지역과 랜드마크, 음식, 문화예술, 스포츠와 같이 다양한 주제를 고르게 포함하도록 기획하여 SBS 아카이브나 유튜브 등에서 데이터를 확보하였습니다.
영상에서 이미지를 약 41,000장(프레임) 추출하였는데요. 추출 시 이미지 퀄리티를 높이고, 중복 장면을 배제하기 위해 ①HSV 색 공간 차이 활용, ②장면 전환 감지와 같은 기계적 정제 방식을 적용하였습니다.
이미지 추출 후에는 전문가(휴먼) 검수를 수행하는데요. 전문가 검수는 두 가지 검토에 중점을 두었습니다. ①추출한 이미지에 포함될 수 있는 개인정보나 사생활 정보에 대한 분류, 그리고 ②한국적 요소가 부족하거나 중복된 이미지에 대한 검토입니다.
전문가 검토 작업을 통해 개인정보 비식별화 처리를 수행하여 법적 안정성을 확보하고, 데이터 품질을 향상시킬 수 있었습니다.
<데이터 수집과 이미지 선정 프로세스>
🤖자동 라벨링(캡셔닝 by GPT)
AI 데이터 구축에 있어 가장 어려운 작업은 라벨링입니다. 40,000건이 넘는 이미지를 검토하고, 라벨링하는 업무를 사람이 직접 한다면 많은 시간이 걸릴 수 있고, 업무 중 오류(휴먼 에러)가 발생할 수 있기 때문인데요.
저희는 레터웍스(LETR WORKS)를 업무에 도입하여 어려움을 해결하였습니다. 레터웍스는 콘텐츠 재창작 솔루션으로 원작 콘텐츠의 현지화, 다양화 업무에 주로 활용되고 있는데요. 업무 할당 등 프로젝트 관리, 로그 관리, 번역, 자막 생성 등의 기능을 탑재하고 있어 데이터 라벨링 자동화 저작도구로도 활용될 수 있답니다!
<레터웍스 솔루션의 데이터 라벨링 자동화(프로젝트 관리) 기능 예시>
특히 데이터 품질을 최대한 향상시키기 위해 기존 레터웍스 솔루션에 GPT 기반 자동 캡셔닝 기능을 적용하였습니다. 그리고 JSON 구조에 각 이미지에 대한 상세 설명을 5문장씩 담았습니다.
한 예시를 보여 드리겠습니다. 레터웍스가 다음과 같은 이미지를 어떻게 설명하였을까요?
①한옥 지붕 위로 하얀 눈이 소복이 내려앉아 있다.
②뒤쪽에는 산이 보이며 나무에도 눈이 쌓여 있다.
③고즈넉한 골목길에 전통 등이 은은하게 켜져 있다.
라고 설명하였습니다. 여기서 끝나는 게 아니라 영문 라벨링을 위한 번역도 필요한데요. 레터웍스는 다음의 번역 결과를 제시하였습니다.
①White snow lies softly on the hanok roofs.
②Snow-capped mountains are visible in the background, and the trees are also covered in snow.
③Traditional lanterns cast a soft glow along the tranquil alleyway.
이처럼 이미지의 맥락과 디테일을 충분히 담아서, AI가 상황과 분위기까지 학습할 수 있도록 설계하였습니다.
🧑🏫휴먼 라벨링(검수 by 전문가)
자동 캡셔닝으로 다 끝난 건 아닙니다. 국문/영문 검수 전문가가 문법, 의미 적합성, 한국적 맥락 반영 여부를 꼼꼼히 검토하였습니다.
특히 저희는 금번 프로젝트에서 객관적인 번역 품질 확보를 위해 의미 정확성 검증을 외부 전문기관에 위탁하였습니다.
검수에서 발견된 오류 유형은 크게 ①주제 분류 오류와 ②표현 부적합으로 분류할 수 있는데요. 주제 분류 오류의 사례는 음식을 자연으로 분류한 경우를 들 수 있습니다.
표현 부적합의 경우에는 즉시 재작업과 추가 검수를 진행하였습니다.
이러한 과정을 거쳐 저희는 최종적으로 평균 95.1%의 정확도(샘플 측정 기준)를 달성하였습니다.
<’한국적 영상 이해 데이터’ 프로젝트 라벨링 프로세스>
이번 포스팅에서는 한국적 영상 데이터 구축 프로젝트의 데이터 수집과 라벨링 절차에 대해 소개해 드렸습니다. 다음 마지막 3편에서는 저희가 구축한 데이터가 얼마나 잘 작동하는지, 어떤 지표로 정확성을 입증하였는지에 대해 살펴 보겠습니다.
3편에서 만나요!