여러분, 안녕하세요! 오랜만에 인사드려요. 지난 1호와 2호에서는 STT 솔루션과 VTT 솔루션에 대해 비교해 보았는데요.
이번 3호에서는 요즘 많은 분들이 업무에 활용하고 계신 챗지피티(ChatGPT), 제미나이(Gemini)와 같은 거대언어모델(LLM)을 영상 현지화에 어떻게 활용할 수 있을지 살펴보겠습니다.
더불어 LLM 등장 전에 우리가 많이 활용하던 기계번역기(MachineTranslator)와의 성능 비교를 통해 AI를 활용한 번역의 수준이 얼마나 많이 향상되었는지도확인해 보도록 하겠습니다.
🤖번역기 선정
번역 성능 비교를 위한 기계번역기는 크게 3가지를 선정하였습니다. 먼저 우리가 일상 업무에 많이 활용하던 번역기 2종, 그리고 챗지피티(ChatGPT) 버전입니다.
일상적으로 많이 활용하던 번역기의 명칭은 굳이 공개하지 않으려 합니다. 이미 생성형 AI 기반의 서비스가 보편화되어 있는 만큼, 이전에 활용하던 범용번역기는 점차 구시대의 유물(?)이 되어가는 느낌이니까요.
다국어 번역 기능을 지원하던 국내/해외 IT 기업들 모두 현재 생성형 AI 서비스에 집중하고 있어, LLM 서비스의 번역 성능이 기존의 범용 번역기보다 훨씬 우수하다는 평가가 나오고 있죠.
LLM 모델은 가장 인지도가 높은 오픈AI사의 챗지피티를 선정하였습니다. 2022년 최초 공개 시 전 세계에 충격을 안겨준 이후, 대화형 인터페이스와 방대한 데이터 학습량으로 가장 보편적으로 활용되는 서비스로 자리잡고 있습니다.
<테스트를 위해 선정한 LLM 모델>
🔠번역할 문장(영상) 선정
번역 성능 비교를 위해 영상의 일부를 발췌했는데요. 저희 솔루션인 ‘레터웍스’ 홍보 영상입니다. 실제로 회사에서 영상 다국어 현지화 업무 시, 번역 등 업무에 LLM을 활용한다고 가정하여 테스트해 보기로 하였습니다.
영화나 드라마가 아닌 제품 홍보 영상이므로 설명형 대사라는 특징이 있습니다. 구어체, 비유적 표현, 기술 용어 등이 적당히 섞여 있는 영상이지요. 또한 여러 모델을 한번에 비교해야 하므로 분량은 가급적 짧게 선정하였습니다.
<번역 테스트를 위해 선택한 영상(제품 홍보 영상)의 도입부 – 원문>
영상 내용에는 고유명사나 전문 용어가 일부 포함되어 있습니다. 먼저 저희 솔루션 이름인 ‘레터웍스’, 그리고 ‘캣툴’이라는 용어입니다.
‘캣툴’은 CAT Tool를 일컫는 말입니다. Computer-Aided(또는 Assisted)Translation Tool의 약어로, 한국어로는 ‘컴퓨터 보조 번역 도구’나 ‘번역 지원 도구’ 정도로 표현할 수 있겠습니다. 테스트에서는 문맥을 제대로 이해하는지 확인하고 싶어 소리나는 대로 ‘캣툴’이라고 작성해 보았습니다.
또 ‘K-콘텐츠’라는 용어도 그냥 한국어로(소리나는 대로) ‘케이 콘텐츠’라고 썼는데요. 역시 케이 콘텐츠라는 용어를 의도한 대로 인식하여 번역하는지를 테스트해 보기 위해서입니다. 추후 각 번역기의 성능 확인 시 주목해서 볼 필요가 있겠네요.
📝테스트 조건
번역기1과 2(범용 번역기)는 한국어로 작성한 영상 대사를 그대로 붙여넣고 영어로 번역하였습니다. 번역기3(챗지피티)은 대화형 인터페이스를 갖춘 특성을 활용하여 번역 시 간단한 지침을 주었습니다.
<번역기1을 사용하여 번역문을 생성한 장면>
<번역기2를 사용하여 번역문을 생성한 장면>
<번역기3 활용 시 대화창에 제시한 번역 지침(프롬프트)>번역기3 활용 시에는 간단한 지침을 주었는데요.
①영상 대사를 글로 옮긴 것임을 고려해 줄 것, ②전체 문맥과 맥락을 고려할 것, ③영상의 대사로 바로 사용할 수 있을 정도의 퀄리티로 해 줄 것입니다.
간단한 프롬프트라고 할 수 있을 텐데요. 대화형 인터페이스를 지원하는 점이 가장 큰 장점이라 이 특성을 활용해 보고 싶었습니다.
굳이 영상 대사를 입력하거나 ‘복사-붙여넣기’ 할 필요 없이, 영상을 업로드하는 것만으로 알아서 음성을 추출, 번역까지 해 준다면 더욱 편리할 텐데요. 아직 챗지피티나 번역기같은 솔루션이 그런 기능까지 제공하지는 않습니다. 그러한 편리함이 필요하다면 레터웍스와 같은 콘텐츠 전문 솔루션을 사용해야 합니다.
📊테스트 결과 도출 및 분석 방법
테스트 결과는 쉽게 확인할 수 있었습니다. 번역기1과 2는 원문을 붙여 넣자 곧바로 번역문이 생성되어 나왔고, 번역기3 역시 즉석에서 결과물을 생성해 주었습니다.
결과물 분석은 구글에서 서비스 중인 제미나이(Gemini)를 이용하기로 하였습니다. 역시 대화형 인터페이스를 제공하는 LLM으로, 최근에 성능이 무척 향상되었다는 평을 듣고 있습니다. 사실 영어 번역문이니 영어를 자유롭게 구사하는 원어민이 결과물을 직접 분석하는 것이 신뢰도 측면에서 가장 우수할 수 있겠지만, 전달의 자연스러움, 정확한 의미 전달을 측정하는 데 있어 주관이 개입될 소지가 있다고 생각했습니다. 그래서 구글이 심혈을 기울여 개발한 제미나이를 통해 분석해 보기로 하였습니다.
제미나이에게는 다음과 같은 조건을 제시하였습니다. 일종의 프롬프트라 볼 수 있겠네요.
①문맥과 맥락을 고려하였을 때 어떤 번역문이 보다 자연스러운지 고려할 것
②현지인이 직접 읽거나 귀로 듣는 경우를 가정하여 어떤 번역문을 접할 때 더욱 원문의 의미에 부합하면서 자연스럽게 받아들일 수 있을지를 고려할 것
<제미나이에게 비교 분석을 요청하고 제시한 프롬프트>
그리고, 원문과 번역기1-3이 각각 생성한 결과물을 붙여넣는 형식으로 제시하였습니다.
제미나이는 원문과 번역문을 문장 단위로 검토하여 ①문맥과 맥락의 자연스러움, ②현지인의 이해도, ③원문의 의미 반영을 중심으로 분석하고, 번역기1, 2, 3이 각각 생성된 결과물 중 어떤 번역이 가장 우수한지 평가해 주었습니다.
이번 포스팅에서는 테스트를 위한 영상과 번역기 선정, 테스트 환경과 분석 방법에 대해 소개해 드렸는데요. 다음 2편부터는 본격적으로 결과물의 번역 성능 분석과 비교를 해보겠습니다.
감사합니다. 2편에서 만나요!