Product
개요영상그래픽문서
Enterprise
Story
레터/테크 노트소식/공지
Pricing
Ko
한국어English日本語日本語
이용 가이드
레터웍스 시작 
한국어English日本語
한국어English日本語
월간 인공지능 5호 소버린 AI와 한국적 영상 이해 데이터(2편)
2025-09-22

안녕하세요.

지난 1편에서 소버린 AI에 대해 말씀드렸습니다. 2편에서는 저희가 최근 수행한 한국적 영상 데이터 구축 프로젝트를 소버린 AI의 관점에서 소개해 드리겠습니다.

‍

🎥한국적 영상 이해 데이터 프로젝트와 소버린 AI

‍

지난 월간 인공지능 4호에서 ‘한국적 영상 이해 데이터’ 프로젝트를 소개해 드렸습니다. 우리나라와 연관된 이미지 약 41,000장과 각 이미지에 대한 상세 설명 205,000문장으로 구성되어 있는데요.

‍

다음과 같은 절차로 데이터를 구축했습니다.

1) 방송, 영상 콘텐츠에서 한국 관련 이미지 추출 및 전문가 검수

2) 이미지마다 5개의 설명 문장을 생성(이미지 캡셔닝, 즉 이미지에 대한 설명 생성 작업)

3) 이미지와 설명 문장 검수 및 부적합 표현 수정, 보완

4) 품질 검증과 유효성 평가

이 과정을 통해 한국 고유 문화를 더 잘 이해하는 AI 학습용 데이터를 구축할 수 있었습니다.

‍

월간 인공지능 4호(1편) 바로가기 ⟶ https://www.letr.ai/ko/blog/multimodal-ai-data

‍

그렇다면 왜 이런 데이터가 중요할까요? AI 모델은 학습 데이터에 따라 생각하고 표현하는 방식이 달라집니다. ChatGPT, Gemini 같은 해외 빅테크의 범용 모델은 전 세계 데이터를 폭넓게 다루지만, 정작 우리 생활과 문화가 반영된 데이터는 상대적으로 적습니다. 따라서 한국적 맥락이 담긴 데이터를 우리가 직접 구축해야 우리만 특성을 반영할 수 있는 AI모델을 만들 수 있습니다.

‍

예를 들어 ChatGPT와 Gemini에서 ‘궁전’ 하면 떠오르는 이미지를 하나 만들어 달라고 요청하였더니 이런 이미지를 생성하더군요. 여러분이 떠올리신 궁전의 모습과 일치하나요? 물론 서양식 궁전을 떠올린 분도 많겠지만, 한국의 궁전과는 사뭇 다른 모습이죠.

‍

<ChatGPT와 Gemini가 생성한 ‘궁전’ 이미지>

‍

이런 측면에서 이번 프로젝트는 소버린 AI 전략과 깊이 연관되어 있습니다. 우리 사회와 문화에 맞는 AI를 직접 만든다는 것이 소버린 AI의 핵심이기 때문이지요. 한국적 영상 이해 데이터 프로젝트는 그 첫걸음으로, 앞으로 AI가 우리 문화의 맥락을 더 정교하게 이해하고 반영하는데 중요한 밑거름이 될 것입니다. 나아가 이는 단순히 기술 개발을 넘어, 우리 스스로 문화적 주권을 지켜내는 길이기도 합니다.

‍

🖼️이미지 캡셔닝 테스트

그렇다면 실제 데이터는 어떻게 만들어졌을까요? 이제부터는 챗지피티와 제미나이를 활용한 이미지 캡셔닝 사례를 통해 한국적 영상 이해 데이터 구축 프로젝트를 소개해 드리겠습니다.

‍

여기 아름다운 가을 풍경을 담은 사진이 있습니다. 전형적인 한국의 가을 풍경을 담은 사진으로, 이미지 사이트에서 찾았는데요. 국내 방송사가 제작한 프로그램에서 캡쳐했다고 가정해 보겠습니다.

‍

<가을풍경(올림픽 공원), 출처: 언스플래쉬>

‍

캡셔닝은 위의 이미지를 설명하는 5개의 문장을 작성하는 업무인데요. 먼저 챗지피티와 제미나이에게 아무런 설명 없이 5개의 문장을 만들어 보라고 시키겠습니다.

챗지피티와 제미나이는 동일한 사진으로 5개의 문장을 만들었습니다.

‍

<챗지피티와 제미나이가 만들어낸 5개의 이미지 설명 문장>

‍

특이하게도 둘 다 유사한 접근으로 문장을 생성합니다. 첫 문장에는 울창한 나무에 초점을 맞추고, 다음으로 사람들과 배경, 색감과 전체 풍경을 묘사하고 있네요.

다음으로는 동일한 사진에 ‘올림픽공원’이라는 키워드를 제시해 보겠습니다. 이미 사진만으로 AI모델이 ‘가을’이라는 계절 키워드는 찾아서 언급한 상태이니, 아직 캐치하지 못한 장소에 대한 정보를 주려 합니다.

‍

<챗지피티와 제미나이에게 추가 키워드 제시 : 올림픽공원>

‍

다시 한번 두 모델의 결과를 비교해 보겠습니다.

<챗지피티와 제미나이가 키워드를 반영하여 생성한 5개 문장>

‍

이번에는 사진에 대한 설명이 좀 더 구체적인 스토리로 나타나는 느낌입니다. 표현이나 묘사도 좀 더 풍성해졌다고 할까요?

차이가 있다면 챗지피티는 ‘올림픽공원’이라는 장소 정보를 일부 문장에서만 활용했는데요. 제미나이는 모든 문장에 ‘올림픽공원’을 넣어 사용자 요청에 지나치게(?) 충실한 느낌이네요.

‍

이번에는 영문으로 작성해 달라고 요청하였습니다.

‍

<챗지피티와 제미나이가 생성한 영문 문장>

두 모델 모두 한국어로 생성한 문장을 기반으로, 매끄럽게 영문 문장을 작성해 주었습니다.

‍

2편에서는 챗지피티와 제미나이로 테스트한 사례를 통해 저희가 수행한 한국적 영상 이해 데이터 구축 프로젝트를 소버린 AI의 관점에서 소개해 드렸습니다. 3편에서는 휴먼 라벨링과 검수(교정) 테스트 사례로 이어가 보겠습니다.

‍

‍

전체 목록 보기

다음 노트 살펴보기

WORKS note
월간 인공지능 5호 소버린 AI와 한국적 영상 이해 데이터(2편)
2025-09-24
WORKS note
월간 인공지능 5호 소버린 AI와 한국적 영상 이해 데이터(1편)
2025-09-22
WORKS note
월간 인공지능 4호 멀티모달 AI 학습용 데이터 구축 프로젝트(3편)
2025-07-29
이용 가이드
문의하기
(주) 트위그팜
사업자등록번호 : 556-81-00254  |  통신판매번호 : 2021-서울종로-1929
대표 : 백선호  |  개인정보관리책임자 : 박현택
서울 본사 : (03187) 서울 종로구 6(서린동) 6층
광주 지사 : (61472) 광주광역시 동구 금남로 193-22
싱가폴 아시아 지사 : (048581) 16 RAFFLES QUAY #33-07 HONG LEONG BUILDING SINGAPORE
Family site
TwigfarmLETR LABSheybunny
이용약관
|
개인정보처리방침
ⓒ 2024 LETR WORKS. All rights reserved.