Product
개요영상그래픽문서
Enterprise
Story
레터/테크 노트소식/공지
Pricing
Ko
한국어English日本語日本語
이용 가이드
레터웍스 시작 
한국어English日本語
한국어English日本語
[AI 이야기] 기계 번역이 인공지능을 만나기까지
2021-08-20

영국 작가 더글러스 애덤스의 재치 있는 블랙 유머가 돋보이는 SF 작품 ‘은하수를 여행하는 히치하이커를 위한 안내서*’에는 바벨 피쉬**라는 신기한 생물이 등장합니다. 작은 노란색의 물고기로 귀에 집어 넣으면 어떤 언어로 이야기한 것이라도 즉시 이해할 수 있게 되죠. 어쩌다 보니 우주를 여행하게 된 평범한 지구인인 주인공에게는 꼭 필요한 존재입니다.

 

그런데 이 바벨피쉬라는 신통한 녀석, 왠지 그 이름이 친숙하지 않나요? 바로 예전에 포털 사이트 야후에서 제공했던 무료 기계번역 서비스였죠. 사실 당시 저는 유명한 야후 검색 서비스 광고의 강아지처럼 번역 서비스에서는 물고기를 내세웠구나 짐작했습니다. 하지만 알고 보니 이 유명한 SF 작품 속 외계 생물의 이름을 딴 것이더군요.

‍

‍

‘YAHOO 바벨 피쉬’와 ‘은하수를 여행하는 히치하이커를 위한 안내서’ 속 바벨 피쉬***

‍

‍

그런데 현실에서도 이 바벨 피쉬와 유사한 것이 있습니다. 바로 자동 번역, 즉 기계 번역이 그렇죠. 가상의 존재인 바벨 피쉬 대신 컴퓨터를 이용해 자동으로 언어를 번역합니다.

 

그런 의미에서 오늘은 마치 바벨 피쉬처럼 언어의 장벽없이 소통할 수 있는 세상을 만들고 있는 기계 번역의 발전 연대기를 톺아보겠습니다. 오늘날 기계 번역이 인공지능을 만나 딥러닝과 방대한 언어 데이터를 바탕으로 높은 성능을 보여주기까지 많은 연구자들의 깊은 고민과 시행 착오, 기술의 발전 과정을 요약하여 살펴봅니다.

 

 

기계 번역의 시작

 

사실 기계 번역의 역사는 꽤나 오래되었습니다. 아이디어 자체만 놓고 보면 17세기의 철학자 데카르트까지 거슬러 올라가야 할 정도죠. 하지만 컴퓨터로 언어를 번역하는 현대적인 개념의 기계 번역은 1949년 미국의 수학자 워렌 위버****가 제안하였고, 이를 기점으로 1950년대 들어 본격적인 연구가 시작됩니다.

‍

‍

1950년대의 기계 번역 연구*****

‍

‍

하지만 당시 수준은 단순히 사전으로 단어를 찾아 목적 언어의 것으로 바꾸고, 문법에 따라 재구성해주는 정도였습니다. 그로 인해 연구는 곧 벽에 부딪혔고, 사람들의 기대와 달리 빠른 속도의 기술 발전은 힘들었죠. 결국은 이를 계기로 컴퓨터가 언어를 분석해 이해해야 한다는 새로운 아이디어가 등장하게 됩니다.

‍

‍

규칙 기반 기계 번역

‍

1980년대에 이르기까지 기계 번역은 대부분 규칙 기반 기술을 이용했는데, 실제 언어의 구조와 문법을 바탕으로 규칙을 만들어 번역하는 방법입니다.

 

규칙 기반 기계 번역은 실제 언어의 문법에 기반한 알고리즘으로 번역의 정확성을 높일 수 있었습니다. 하지만 언어학을 이해하고 번역 규칙을 시스템화하려면 연구 과정에서 언어학자들의 역할이 중요하고, 그만큼 개발에는 시간과 비용이 많이 필요했죠. 또한 우리가 실생활에서 흔히 사용하는 문법에 맞지 않은 문장은 제대로 번역하기 어려운 한계가 있었습니다.

 

다만 이 시기를 거치며 형태학적, 구문론적, 의미론적 분석 등 자연어처리에 필요한 기초 연구들을 통해 이후 기계 번역의 발전에 많은 영향을 주었습니다.

‍

‍

통계 기반 기계 번역

 

1990년에 접어들며 IBM이 통계적 방법을 기계 번역에 도입하며 혁신적인 변화가 일어납니다.

‍

통계 기반 기계 번역은 원문과 번역문의 병렬 말뭉치를 이용해 단어나 구문의 빈도수 등 통계 모델을 학습하는 방법입니다. 따라서 통계를 낼 수 있는 언어 데이터가 충분하면 비교적 정확한 번역이 가능하기 때문에 구글을 필두로 많은 기업들이 기계 번역 연구에 뛰어들면서 기계 번역기의 전성기를 열 수 있었습니다.

 

하지만 통계 기반 기계 번역에도 한계는 있습니다. 충분한 데이터가 축적되지 않으면 번역 품질이 떨어지고, 특히 어순과 문법 구조가 다른 언어를 번역하기 어렵다는 단점이 있습니다.

‍

‍

신경망 기반 기계 번역

‍

통계 기반 기계 번역이 주류로 자리잡은 듯 보였으나, 2000년대 이후 딥 러닝과 결합하며 또 다른 차원의 거대한 혁신이 일어납니다.

‍

신경망 기반 기계 번역은 기존의 접근 방법들과 달리 실제 인간의 사고 방식을 모방하여 기계가 문장의 의미를 이해한 정보를 기반으로 번역 결과를 만듭니다. 그 결과 문장의 의미와 미묘한 뉘앙스 차이까지 인식해 훨씬 더 자연스러운 번역 결과를 보여줄 수 있죠. 최근 구글, 마이크로소프트, 네이버, 카카오 등 자동 번역 서비스를 제공하는 기계 번역기는 기본적으로 이 모델을 기반으로 기존의 문제점들을 보완하고 있습니다.

 

기존의 통계 기반 기계 번역은 전체 문장의 맥락에 대한 이해가 부족할 수 밖에 없는 방법적 한계가 있었습니다. 하지만 신경망 기계 번역은 사람의 뇌가 학습하는 과정을 본 딴 머신 러닝 기술로 전체 문맥 상 의미 차이를 파악해 문장 단위로 자연스러운 번역 결과를 보여줄 수 있게 된 것입니다.

 

 

앞으로의 기계 번역

 

지금도 신경망 기반 기계 번역을 개선하기 위한 노력은 계속되고 있습니다. 전 세계적으로 번역에 대한 수요가 늘어나며, 방대한 언어 데이터가 축적되고 있고, 인공지능을 학습시키는 머신 러닝 기술이 향상되면서 기계 번역은 빠른 속도로 발전하고 있죠. 또한 트위그팜(https://twigfarm.net)이 LETR 기술을 이용하는 것처럼 고객의 고유 데이터 및 특정 분야나 기업의 전문용어를 데이터화하여 고객 맞춤형 번역을 제공할 수도 있습니다.

 

이처럼 기계 번역은 수십 년 간의 연구개발을 통해 이미 상당한 수준에 이르렀습니다. 심지어 머지않아 인간 번역사를 대체할 수도 있다는 전망까지 나올 정도이죠. 불과 몇 년 전까지만 해도 기계 번역기의 다양한 오역 사례들이 웃음거리로 회자되었던 것을 생각하면 정말 엄청난 발전 속도입니다.

 

그렇지만 지금도 숙련된 인간 번역사처럼 텍스트에 담긴 언어문화적 가치와 고유의 스타일까지 번역하기는 어려운 것 같습니다. 그만큼 기계 번역에는 앞으로도 풀어야 할 과제와 가야할 길이 많이 남아있다는 의미겠죠. 다만 인공지능의 발전과 함께 최신의 신경망 모델에서는 다양한 언어의 번역을 위한 새로운 방법들이 계속 시도되고 있는 만큼 언어의 장벽없는 미래도 그리 멀지는 않은 것 같습니다.

‍

‍

‍

* 은하수를 여행하는 히치하이커를 위한 안내서 https://ko.wikipedia.org/wiki/은하수를_여행하는_히치하이커를_위한_안내서
** 바벨피쉬 https://namu.wiki/w/바벨피쉬
*** 이미지 출처 https://en.wikipedia.org/wiki/Babel_Fish_(website), https://namu.wiki/w/바벨피쉬
**** 워렌 위버 https://en.wikipedia.org/wiki/Warren_Weaver
***** 이미지 출처 https://newlearningonline.com/transpositional-grammar/interest/program/program/automatic-language-processing

‍

‍

References

[1] 기계 번역 https://en.wikipedia.org/wiki/Machine_translation#cite_ref-6

[2] 규칙 기반 기계 번역 https://en.wikipedia.org/wiki/Rule-based_machine_translation

[3] 통계 기반 기계 번역 https://en.wikipedia.org/wiki/Statistical_machine_translation

[4] 신경망 기계 번역 https://ko.wikipedia.org/wiki/신경망_기계_번역

[5] https://www.sciencetimes.co.kr/news/기계번역-어디까지-진화했나/

[6] 경희대학교 대학원보, 과학학술 [제243호 과학학술: 인공지능 번역] 인공지능 번역의 트렌드

[7] 인공신경망 VS 통계기반 번역, 뭐가 다를까? https://zdnet.co.kr/view/?no=20161223190944

[8] [알아봅시다] 기계번역의 시대 http://www.dt.co.kr/article_list.html?gcd=3&scd=300&ig=391817&cpage=3&sel_y=2016&sel_m=06&sel_d=03

‍

‍

‍

함께보면 좋은 콘텐츠

  • [AI 이야기]  인간을 닮아가는 기계 번역
  • 인공지능 번역기 학습시키기: 01. 말뭉치, 왜 필요한가?
  • 언어처리 엔진 LETR는 왜 텍스트 언어에 집중할까?
    🚀데이터 인텔리전스 플랫폼 '레터웍스' 지금 바로 경험해보세요.

    • 노트의 내용을 실제로 이용해 보세요! (한 달 무료 이용 가능 🎉)
    • AI 기술이 어떻게 적용되는지 궁금한가요? (POC 샘플 신청하기 💌)
  • 전체 목록 보기

    다음 노트 살펴보기

    WORKS note
    월간 인공지능 2호 영상 기반 음성-텍스트 변환 솔루션 비교하기(4편_생성 결과물 비교)
    2025-04-28
    WORKS note
    월간 인공지능 2호 영상 기반 음성-텍스트 변환 솔루션 비교하기(3편_생성 결과물 비교)
    2025-04-25
    WORKS note
    월간 인공지능 2호 영상 기반 음성-텍스트 변환 솔루션 비교하기(2편_인터페이스 비교)
    2025-04-23
    이용 가이드
    문의하기
    (주) 트위그팜
    사업자등록번호 : 556-81-00254  |  통신판매번호 : 2021-서울종로-1929
    대표 : 백선호  |  개인정보관리책임자 : 박현택
    서울 본사 : (03187) 서울 종로구 6(서린동) 6층
    광주 지사 : (61472) 광주광역시 동구 금남로 193-22
    싱가폴 아시아 지사 : (048581) 16 RAFFLES QUAY #33-07 HONG LEONG BUILDING SINGAPORE
    Family site
    TwigfarmLETR LABSheybunny
    이용약관
    |
    개인정보처리방침
    ⓒ 2024 LETR WORKS. All rights reserved.