Product
개요영상그래픽문서
Enterprise
Story
레터/테크 노트소식/공지
Pricing
Ko
한국어English日本語日本語
이용 가이드
레터웍스 시작 
한국어English日本語
한국어English日本語
월간 인공지능 4호 멀티모달 AI 학습용 데이터 구축 프로젝트(2편)
2025-07-24

안녕하세요.

지난 1편에서 한국적 영상 데이터 구축 프로젝트와 멀티모달 데이터가 무엇이며, 어떻게 활용될 수 있는지를 소개해 드렸는데요. 2편에서는 이미지 선정부터 GPT 기반 자동 캡셔닝, 전문가 검수 절차까지 실제 구축 과정을 말씀 드리겠습니다.

 

🖼️데이터 수집과 이미지 선정

영상 데이터 수집에서 가장 우선적으로 고려할 사항은 저작권인데요. 저희는 총 7,822건의 영상 데이터 저작권을 확보할 수 있었습니다.

동식물, 지역과 랜드마크, 음식, 문화예술, 스포츠와 같이 다양한 주제를 고르게 포함하도록 기획하여 SBS 아카이브나 유튜브 등에서 데이터를 확보하였습니다.

영상에서 이미지를 약 41,000장(프레임) 추출하였는데요. 추출 시 이미지 퀄리티를 높이고, 중복 장면을 배제하기 위해 ①HSV 색 공간 차이 활용, ②장면 전환 감지와 같은 기계적 정제 방식을 적용하였습니다.

이미지 추출 후에는 전문가(휴먼) 검수를 수행하는데요. 전문가 검수는 두 가지 검토에 중점을 두었습니다. ①추출한 이미지에 포함될 수 있는 개인정보나 사생활 정보에 대한 분류, 그리고 ②한국적 요소가 부족하거나 중복된 이미지에 대한 검토입니다.

전문가 검토 작업을 통해 개인정보 비식별화 처리를 수행하여 법적 안정성을 확보하고, 데이터 품질을 향상시킬 수 있었습니다.

‍

<데이터 수집과 이미지 선정 프로세스>

‍

🤖자동 라벨링(캡셔닝 by GPT)

AI 데이터 구축에 있어 가장 어려운 작업은 라벨링입니다. 40,000건이 넘는 이미지를 검토하고, 라벨링하는 업무를 사람이 직접 한다면 많은 시간이 걸릴 수 있고, 업무 중 오류(휴먼 에러)가 발생할 수 있기 때문인데요.

저희는 레터웍스(LETR WORKS)를 업무에 도입하여 어려움을 해결하였습니다. 레터웍스는 콘텐츠 재창작 솔루션으로 원작 콘텐츠의 현지화, 다양화 업무에 주로 활용되고 있는데요. 업무 할당 등 프로젝트 관리, 로그 관리, 번역, 자막 생성 등의 기능을 탑재하고 있어 데이터 라벨링 자동화 저작도구로도 활용될 수 있답니다!

‍

<레터웍스 솔루션의 데이터 라벨링 자동화(프로젝트 관리) 기능 예시>

‍

특히 데이터 품질을 최대한 향상시키기 위해 기존 레터웍스 솔루션에 GPT 기반 자동 캡셔닝 기능을 적용하였습니다. 그리고 JSON 구조에 각 이미지에 대한 상세 설명을 5문장씩 담았습니다.

‍

한 예시를 보여 드리겠습니다. 레터웍스가 다음과 같은 이미지를 어떻게 설명하였을까요?

‍

①한옥 지붕 위로 하얀 눈이 소복이 내려앉아 있다.
②뒤쪽에는 산이 보이며 나무에도 눈이 쌓여 있다.
③고즈넉한 골목길에 전통 등이 은은하게 켜져 있다.

‍

라고 설명하였습니다. 여기서 끝나는 게 아니라 영문 라벨링을 위한 번역도 필요한데요. 레터웍스는 다음의 번역 결과를 제시하였습니다.

‍

①White snow lies softly on the hanok roofs.
②Snow-capped mountains are visible in the background, and the trees are also covered in snow.
③Traditional lanterns cast a soft glow along the tranquil alleyway.

이처럼 이미지의 맥락과 디테일을 충분히 담아서, AI가 상황과 분위기까지 학습할 수 있도록 설계하였습니다.

‍

🧑‍🏫휴먼 라벨링(검수 by 전문가)

자동 캡셔닝으로 다 끝난 건 아닙니다. 국문/영문 검수 전문가가 문법, 의미 적합성, 한국적 맥락 반영 여부를 꼼꼼히 검토하였습니다.

특히 저희는 금번 프로젝트에서 객관적인 번역 품질 확보를 위해 의미 정확성 검증을 외부 전문기관에 위탁하였습니다.

검수에서 발견된 오류 유형은 크게 ①주제 분류 오류와 ②표현 부적합으로 분류할 수 있는데요. 주제 분류 오류의 사례는 음식을 자연으로 분류한 경우를 들 수 있습니다.

표현 부적합의 경우에는 즉시 재작업과 추가 검수를 진행하였습니다.

이러한 과정을 거쳐 저희는 최종적으로 평균 95.1%의 정확도(샘플 측정 기준)를 달성하였습니다.

‍

<’한국적 영상 이해 데이터’ 프로젝트 라벨링 프로세스>

‍

이번 포스팅에서는 한국적 영상 데이터 구축 프로젝트의 데이터 수집과 라벨링 절차에 대해 소개해 드렸습니다. 다음 마지막 3편에서는 저희가 구축한 데이터가 얼마나 잘 작동하는지, 어떤 지표로 정확성을 입증하였는지에 대해 살펴 보겠습니다.

‍

3편에서 만나요!

‍

전체 목록 보기

다음 노트 살펴보기

WORKS note
월간 인공지능 4호 멀티모달 AI 학습용 데이터 구축 프로젝트(3편)
2025-07-29
WORKS note
월간 인공지능 4호 멀티모달 AI 학습용 데이터 구축 프로젝트(2편)
2025-07-24
WORKS note
월간 인공지능 4호 멀티모달 AI 학습용 데이터 구축 프로젝트(1편)
2025-07-21
이용 가이드
문의하기
(주) 트위그팜
사업자등록번호 : 556-81-00254  |  통신판매번호 : 2021-서울종로-1929
대표 : 백선호  |  개인정보관리책임자 : 박현택
서울 본사 : (03187) 서울 종로구 6(서린동) 6층
광주 지사 : (61472) 광주광역시 동구 금남로 193-22
싱가폴 아시아 지사 : (048581) 16 RAFFLES QUAY #33-07 HONG LEONG BUILDING SINGAPORE
Family site
TwigfarmLETR LABSheybunny
이용약관
|
개인정보처리방침
ⓒ 2024 LETR WORKS. All rights reserved.