Product
개요영상그래픽문서
Enterprise
Story
레터/테크 노트소식/공지
Pricing
Ko
한국어English日本語日本語
이용 가이드
레터웍스 시작 
한국어English日本語
한국어English日本語
월간 인공지능 2호 영상 기반 음성-텍스트 변환 솔루션 비교하기(4편_생성 결과물 비교)
2025-04-07

3편에서는 세 솔루션의 화자/문장 단위 인식의 정확도와 오류 유형에 대해 살펴 보았습니다. 마지막으로 생성된 텍스트 결과물의 정확도와 오류 유형을 살펴보고, 각 솔루션이 업무 효율 향상에 얼마나 기여할 수 있을지 판단해 보도록 하겠습니다.

‍

🎯생성된 텍스트 결과물의 정확도

모든 솔루션이 100%의 정확도를 보장한다면 영상 자막 업무가 혁신적으로 변화할 것입니다. 생성된 텍스트 결과물의 정확성을 담당자가 다시 검토할 필요가 없어질 것이고, 결과물을 그대로 자막으로 사용할 수도 있을 테니까요.

하지만 아직까지 100%의 정확도를 보장하는 솔루션은 존재하지 않습니다. 누군가는 검토하고 수정, 보완을 해야 한다는 말이죠. 그렇다면 결과물의 정확도가 높을수록, 즉 실제 음성과 생성 텍스트 결과물의 일치하는 정도가 높을수록 아무래도 사람 손이 덜 갈테니 업무 효율이 더 좋아질 것입니다. 그런 측면에서 3가지 솔루션의 정확도를 비교해 보겠습니다.

먼저 클로바 노트는 총 36건의 오류가 발생하였습니다. 오류의 유형은 크게 5가지로 구분하였는데요. 단어 인식에서 오류가 발생한 경우가 19건으로 가장 많았고, 어절 단위를 인식하지 못한 오류가 9건, 고유명사를 잘못 인식한 오류가 5건, 의문문과 평서문을 구분하지 못한 오류가 1건, 마지막으로 단어, 어절 미인식 등 2가지 이상의 오류가 복합적으로 나타난 경우가 2건이었습니다.

‍

<클로바 노트의 오류 유형별 건수>

‍

소닉스는총 33건의 오류가 발생하였습니다. 단어 인식 오류 17건, 어절 단위 미인식 오류 8건, 고유명사 오류 5건, 의문문/평서문 오류 2건, 복합오류 1건으로 집계되었으며, 전체적으로 클로바 노트와 유사한 결과를 보여주었습니다.

‍

<소닉스의 오류 유형별 건수>

마지막으로 레터웍스는 총 40건의 오류가 발생하였습니다. 앞서 살펴본 두 솔루션보다는 좀 더 많은 오류를 보여주었는데요. 단어 인식 오류는 타 솔루션과 유사하지만 어절 단위로 인식하지 못한 오류가 17건으로 타 솔루션 대비 2배 가량 더 많이 발생하였습니다. 이런 이유로 오류가 전체적으로 더 많이 발생하였는데, 이는 화자 단위가 아닌 문장 단위, 글자수 단위로 음성을 인식하는 특성 때문인 것으로 파악됩니다. 그러다 보니 대화가 빠르게 이어지는 과정에서 문장의 끝맺음이나 ‘네.’와 같은 단답형 대답을 놓치거나, 말버릇에 가까운 단어들, ‘저도 이제 랩에 빠지게’에서 ‘이제’와 같은 단어를 놓치는 등의 오류가 발생하였던 것입니다.

‍

<레터웍스의 오류 유형별 건수>

‍

결과적으로세 솔루션 모두 30-40건의 오류가 발생하였으며, 이는 전체 단어 수 대비 매우 높은 정확도입니다. 총 단어 수가 621개 단어로 구성되어 있는데, 이 중 33-40건의 오류가 발생하였으므로 93-95%의 정확도를 달성한 결과입니다.

‍

<세 솔루션의 오류 건수와 생성 결과물의 정확도>

‍

🔍오류 유형 분석

오류 유형은 단어 인식 오류, 어절 단위 미인식 오류, 고유명사 인식 오류, 의문문/평서문 오류(문장부호 물음표), 복합 오류(4가지 오류 중 2개 이상이 복합적으로 발생한 오류)로 분류하였습니다. 세 솔루션 모두 공통적으로 단어 인식 오류가 가장 높게 나타났습니다.

공통적으로 오류가 발생한 사례를 보면 ‘빠졌으면’, ‘원소기호’, ‘인생 2회차를’, ‘살아봤으니까’, ‘과찬입니다.’와 같은 단어들이었습니다.

‍

<세 솔루션에서 공통적으로 나타난 단어 오류 유형>

‍

먼저 ‘잘못 빠졌으면 래퍼가 됐을 수도.’라는 발언에서 ‘빠졌으면’을 공통적으로 ‘따졌으면’으로 인식하였습니다. 혹시 화자의 발음에 문제가 있지 않았을까 싶어 반복적으로 들어보았지만 크게 부정확한 발음이라 느껴지지는 않았는데요. 아무래도 ‘빠지다’와 ‘따지다’가 유사한 발음이다 보니 공통적으로 오류가 발생한 것으로 보입니다.

‘원소기호’의 경우에는 ‘원소기호 혹시 외우고 그럽니까?’로 ‘호’와 발음이 유사한 ‘혹시’로 바로 이어지는데 화자의 발언이 빠르게 진행되어 인식을 하지 못한 결과로 볼 수 있을 것 같네요.

‘인생 2회차’는 사실 일상적으로 사용하는 단어라고 볼 수는 없죠. 특정한 상황에서 사용하는 ‘조합어’라고 할 수 있을 텐데요. 문법적으로는 비표준적인 단어지만 일상 언어에서 의미가 명확하게 전달되는 일종의 ‘합성어’라 볼 수 있습니다. 다소 특이한 단어이다 보니 세 솔루션 모두 정확한 인식을 하지 못한 것으로 보입니다. 다만 세 솔루션이 각각 ‘위해차’, ‘회차’, ‘위예차’ 등으로 전부 다르게 인식하였다는점이 흥미로웠습니다.

‘물리학자로 살아봤으니까’ 역시 일상적으로 자주 사용하는 표현이라 보기힘들 것 같습니다. 일상 생활에서는 ‘살아왔으니까’가 좀 더 많이 사용되는 표현일 텐데, 영상의 대화에서는 인생 2회차라는 특수한 상황을 가정하였으므로 ‘살아보다’라는 표현이 사용되었는데요. 이 때 소닉스는 올바르게 인식한 반면, 클로바 노트와 레터웍스는 ‘살아왔으니까’로 인식하였습니다.

마지막 사례로‘과찬입니다’를 ‘과천입니다’로 인식한 사례는 좀 의아하다는 느낌을 받을 수 있었는데요. 여러번 들어보니 화자가 또박또박 ‘과찬입니다.’라고 발언을 하는데 세 솔루션 모두 ‘과천입니다’라고 인식하였습니다. 아무래도 화자가 바뀌면서 대화가 빠르게 이어지다 보니 오류가 발생하지 않았을까 싶습니다.

단어 오류와 관련하여 재미있는 사례 하나를 소개 드리겠습니다. 참가자 중 한 명이 빠른 랩을 한 소절 소개하는 장면이있었는데 세 솔루션이 100% 정확하게 인식하지는 못하였지만 비교적 비슷한 정확도로 인식하였습니다.

‍

<화자가 선보인 속사포 랩의 실제 가사와 세 솔루션의 생성 결과물 비교>

‍

앞부분은 공통적으로 ‘그 누구보다’에서 ‘그’를 놓치거나, ‘난 남들과는’을 ‘남과는’으로 생성하였습니다. 그런데 뒷부분 ‘비트 위의 나그네’를 제각각 다른 텍스트로 생성하였다는 점이 흥미로웠습니다. 아무래도‘비트 위의 나그네’라는 표현은 일상 대사에서 흔히 사용되는 표현이라 할 수는 없을 테니까요.

생성 시 어절이나 단어를 놓친 오류는 주로 문장 끝부분에서 발생하였습니다. 보통 일상 대화에서 말 끝을 흐리거나, 미처 말을 끝맺기 전에 다른 화자가 말을 시작하는 경우가 종종 있죠? 그런 상황에서 발생한 오류라고 볼 수 있는데요. 한편으로 ‘약간 지금 타격감이’에서 ‘지금’을 인식하지 못했거나, ‘네, 맞습니다.’에서 ‘네,’를 인식하지 못한 경우도 있었습니다. 통상 대화체에서 화자가 말의 공백을 메우거나 시간을 벌기 위해 무의식적으로 사용하는 ‘지금’, ‘이제’, ‘그냥’, ‘어,’ ‘음’ 과 같은 단어나 구절을 군말(필러,Filler)이라 하는데요. 화자가 군말을 사용했을 때 워낙 빠르게 발언이 이어지다 보니 종종 놓치는 경우가 있었습니다.

고유명사를 잘못 인식하는 경우는 4-5견씩 발생하였는데 이름의 발음을 잘못 인식한 경우가 가장 많았습니다. 사실 사람의 이름이나 닉네임을 정확히 인식하기를 기대하는 것은 아직 무리라는 생각이 듭니다. 특히 발음이 어려운 이름을 정확히 인식하기는 어렵기 때문에 실제 영상 번역 업무에서는 특정한 용어를 미 저장해 놓고 한꺼번에 적용하는 ‘번역 메모리’(Translation Memory, TM) 기능을 활용하면 효과적일 수 있는데요. 레터웍스는 번역 메모리 기능을 제공하고 있으므로 이런 경우에 편리하게 활용할 수 있겠습니다.

‍

📝결언

네이버의 클로바 노트와 소닉스, 그리고 레터웍스 모두 우수한 솔루션으로 평가할 수 있었습니다. 특히 단어 단위로 측정한 생성 성능 비교에서 93~95%의 높은 정확도를 기록하여 업무 효율을 향상시켜 줄 수 있는 솔루션으로 손색이 없는 성능을 보여 주었는데요. 성능이 거의 유사하다 볼 수 있으니, 자신의 사용 패턴에 보다 적합한 솔루션을 선택하여 업무에 적용하면 편리하게 활용할 수 있는 도구들이라는 생각이 듭니다.

앞서 인터페이스 비교에서 살펴보았듯 클로바 노트는 실제 대화나 오디오 파일 기반으로 서비스가 제공되고 있으며, 화자 중심으로 텍스트를 생성하여 결과를 보여주었습니다. 이런 특성을 감안한다면 중요한 회의에서 기록이 필요할 때, 또는 음성 파일의 내용을 파악하거나 분석, 요약이 필요한 업무에 유용하게 활용할 수 있을 것으로 보입니다. 또한 94%의 인식 정확도를 보여준다는 결과를 고려하면 업무 효율을 크게 향상시킬 수 있을 것으로 생각되네요.

반면에 소닉스와 레터웍스는 비디오(영상) 파일 기반으로 텍스트 생성 서비스를 제공하고 있습니다. 소닉스는 화자 중심으로 텍스트를 생성하면서도, 자막 업무의 편의를 위해 다국어 번역이나 텍스트 편집 등 다양한 기능을 구현하고 있었습니다. 레터웍스는 화자중심이 아닌, 문장이나 글자수 중심으로 텍스트 생성 서비스를 제공하여 자막/더빙 업무에 특화된 인터페이스를 갖추고 있습니다. 또한, 다국어 번역, 텍스트 편집 등 핵심 기능은 물론, 자막 업무에 필요한 세부적인 기능을 제공하고 있습니다.

이런 특성을 고려하면 소닉스와 레터웍스는 영상 콘텐츠의 자막 작업에 적합할 것으로 보이며, 1개 언어만이 아닌 다국어 번역과 자막 작업에도 유용하게 활용할 수 있을 것으로 생각됩니다. 두 솔루션 모두 93%가 넘는 정확도를 달성하였다는 점을 보면, 역시 영상 콘텐츠 관련 업무 효율 향상에 크게 기여할 수 있을 것입니다.

 

금번 비교에서 레터웍스가 제공하는 영상-텍스트 변환 기능의 성능을 나름 객관적인 기준을 마련하여 측정해 보았습니다. 이를 통해 레터웍스가 국내/해외를 대표하는 솔루션과 동등한 성능을 발휘한다는 결과를 얻을 수 있었습니다.

레터웍스의 영상-텍스트 변환 기능은 글로벌 기업이 제공하는 음성 인식 API와 연동하여 작동하도록 설계되어 있습니다. 저희는 항상 최고의 성능을 구현하는 음성 인식 모델을 선택하고 있으며, 지속적인 성능 측정을 통해 고객분들의 업무 편의와 효율성 개선을 위해 노력하고 있습니다.

또한 많은 고객분들께서 작년에 개시한 서비스인 더빙 자동 생성 기능에 큰 관심을 보여주고 계신데요. 레터웍스 영상 솔루션은 인공지능 생성 기술을 통해 자막/더빙 작업을 종합적으로 제공하고 있어, 영상 콘텐츠의 현지화, 다양화 버전 재창작에 가장 적합한 솔루션으로 자리매김하고 있습니다.

앞으로도 저희는 고객분들이 신속, 편리하게 영상 재창작 업무를 하실 수 있도록 다양한 기능을 적용하여, 고객분들의 업무 효율에 최대한 기여할 수 있도록 노력해 가겠습니다.

지금까지 긴 글 읽어 주셔서 감사합니다. 다음에 새로운 콘텐츠로 뵙겠습니다!

‍

‍

‍

‍

‍

‍

‍

전체 목록 보기

다음 노트 살펴보기

WORKS note
월간 인공지능 2호 영상 기반 음성-텍스트 변환 솔루션 비교하기(4편_생성 결과물 비교)
2025-04-28
WORKS note
월간 인공지능 2호 영상 기반 음성-텍스트 변환 솔루션 비교하기(3편_생성 결과물 비교)
2025-04-25
WORKS note
월간 인공지능 2호 영상 기반 음성-텍스트 변환 솔루션 비교하기(2편_인터페이스 비교)
2025-04-23
이용 가이드
문의하기
(주) 트위그팜
사업자등록번호 : 556-81-00254  |  통신판매번호 : 2021-서울종로-1929
대표 : 백선호  |  개인정보관리책임자 : 박현택
서울 본사 : (03187) 서울 종로구 6(서린동) 6층
광주 지사 : (61472) 광주광역시 동구 금남로 193-22
싱가폴 아시아 지사 : (048581) 16 RAFFLES QUAY #33-07 HONG LEONG BUILDING SINGAPORE
Family site
TwigfarmLETR LABSheybunny
이용약관
|
개인정보처리방침
ⓒ 2024 LETR WORKS. All rights reserved.