기계 번역 성능을 평가하는 BLEU 스코어

11:30 am

-

September 10, 2021

인공 신경망 기반 기계 번역(NMT, Neuralmachine translation) 이후 기계 번역은 점점 더 정확해지고 있습니다. 물론 아직도 전문 번역사의 유려함에는 미치지 못하지만, 예전처럼 이상한 번역을 보면 ‘번역기 쓴 거냐’며 놀리기는 힘든 수준에 이르렀죠. 더구나 지금도 더 좋은 기계 번역 기술을 위해 노력하고 있고, 뛰어난 연구 성과들이 추가되고 있는 상황입니다.

 

하지만 기계 번역이 일상생활 곁에 자리잡은 지금도 여전히 신뢰도에 대한 의문은 남아있습니다. 분명 기계 번역의 효율성은 인정할 수 밖에 없지만, 그렇다고 인간처럼 시간과 비용, 노력을 들여 학위를 따거나 시험을 통과한 것은 아니니까요. 그렇다면 사람처럼 시험을 통해 기계 번역의 성능을 평가하면 어떨지 알아봤습니다.

 

기계 번역의 성능 평가

 

실제로 ‘좋은 번역기를 만들기 위해서는 정확한 품질 평가가 중요하다.’*고 합니다. 기계 번역 시스템의 ‘개발 과정에서 발생한 변경사항을 적용했을 때의 성능을 비교, 분석하여 개발 과정에 반영하기’* 때문입니다.

 

이런 기계 번역의 성능 평가에는 프로그램을 이용해 측정하는 객관적인 평가와 인간 평가자가 하는 주관적인 평가 방법이 있습니다. ‘객관적인 평가는 평가자의 주관적인 판단이나 언어적인 특성을 배제한 방법으로 프로그램을 통해 자동으로 Fluency와 Adequacy를 측정하여 성능을 평가하고, 주관적인 평가는 평가자의 평가를 통해 번역의 품질을 평가하는 방법’**입니다.

 

이 글에서는 ‘시간과 비용이 많이 들고, 재사용할 수 없다는 단점이’** 있는 사람(주관적인) 평가 대신 ‘평가자의 주관적인 판단이나 언어적인 특성을 배제’**할 수 있는 자동(객관적인) 평가에 대해 알아봅니다.

 

BLEU 스코어?

 

기계가 하는 자동 평가에도 여러가지 방법이 있습니다. 그 중 가장 많이 사용하는 방법이 오늘 소개해드릴 BLEU(Bilingual Evaluation Understudy)입니다.

 

‘BLEU는 기계 번역 결과와 사람이 직접 번역한 결과가 얼마나 유사한지 비교하여 번역에 대한 성능을 측정하는 방법입니다.’*** ‘언어에 구애받지 않고 사용할 수 있으며, 계산 속도가 빠르다’***는 장점이 있죠. 즉 기계가 번역한 문장이 사람이 번역한 정답 문장과 유사할수록 더 높은 평가 점수를 기록합니다.

 

BLEU 스코어의 측정

 

‘BLEU는 엔그램(n-gram)****의 비교를 통해 기계가 수행한 번역이 사람의 번역과 겹치는 부분이 얼마나 되는지를 측정하여 1에서 100 사이의 점수를 산출’*****합니다. ‘이 점수가 높을수록 기계 번역이 사람의 번역과 유사한 것으로 해석되며 따라서 기계번역의 품질 수준이 높은 것으로’***** 평가하게 됩니다.

즉 BLEU는 전문 번역사의 번역문에 가까울수록 해당 기계 번역의 성능이 우수할거라는 아이디어에 기반한 평가 방법입니다. 다만 단순히 정답과 일치하는 단어가 많다고 꼭 번역 품질도 높다고 할 수 있느냐에 대한 논란의 여지는 있습니다. 그래서 경우에 따라 사람 평가자가 평가를 하게 해 보완하는 방법을 이용하기도 합니다.

 

BLEU 실제 측정 사례

 

지난 2019년 트위그팜도 전문 번역 성능과 품질에 대한 객관적 평가를 받기 위해 한국정보통신기술협회(TTA) 소프트웨어시험인증연구소의 확인 및 검증 시험(Verification& Validation)을 받은 바 있습니다.

 

당시 5개 분야(법률, 금융, 기계, 화학, 의료)에 대해 구글 번역기와 번역 품질을 비교한 결과 4개 분야(법률, 금융, 기계, 의료)에서 구글 번역기보다 높은 점수를 기록했습니다. 특히 법률 분야 테스트에서 우수한 BLEU 스코어를 기록해 기술력을 인정받을 수 있었습니다.

 

마무리하며

 

이제 기계 번역은 특허, 법률 등 전문 분야는 물론 공공 서비스, 고전 연구에 이르기까지 다양한 분야에서 활용되고 있습니다. 아직 인간의 번역만큼 좋다고 말하기는 어렵지만, 기계 번역은 이미 일상생활 속으로 들어와 마치 예전에 모르는 단어는 사전에서 찾았던 것 만큼 친숙하게 되었죠. 빠른 속도로 발전하는 기계 번역 기술을 보고 있으면 앞으로 언어의 장벽이란 표현이 어색해 질 날이 멀지 않아 보입니다.

신화 속 인간이 쌓아 올렸던 바벨탑은 결국 무너져버리며 이 세상에 서로 다른 언어로 인한 오해와 다툼을 만들었다고 합니다. 하지만 지금까지 기계 번역 기술을 통해 쌓아 온 새로운 바벨탑만큼은 인류를 언어의 장벽이 없는 더 나은 미래로 보내주리라 기대합니다.

* 인용 출처 https://www.korean.go.kr/nkview/nklife/2017_4/27_0403.pdf
** 인용 출처 https://scienceon.kisti.re.kr/commons/util/originalView.do?cn=CFKO200329013548100&oCn=NPAP07557277&dbt=CFKO&journal=NPRO00276687&keyword=BLEU%20score
*** 인용 출처 https://wikidocs.net/31695
**** https://terms.naver.com/entry.naver?docId=862633&cid=42346&categoryId=42346
***** http://www.koreascience.kr/article/CFKO200925752344568.pdf

References

[1] BLEU:a Method for Automatic Evaluation of Machine Translation https://aclanthology.org/P02-1040.pdf

[2] 번역 품질 관리를 위한BLEU 스코어의 이해와 활용 https://www.gconstudio.com/post/20200729

[3] 신경망 기계번역 ‘트위그팜’, 구글 뛰어넘다… 표현력-정확성 점수 앞서 https://www.donga.com/news/Economy/article/all/20190924/97561753/1

[4] 구글 번역 앞섰다는 '하이브리드 번역', 무얼 의미하나? https://www.bloter.net/newsView/blt202006250040

[5] 트위그팜 ‘하이브리드 번역기’, 구글 번역기보다4개 분야 성능 앞서 http://newstime24.co.kr/news/article.html?no=22664

함께보면 좋은 콘텐츠
  • 언어처리 엔진 LETR는 왜 텍스트 언어에 집중할까?
  • [AI 이야기] 기계 번역이 인공지능을 만나기까지
  • [AI 이야기] 인간을 닮아가는 기계 번역