언어 천재가 된 AI, 다국어(Polyglot) 모델 (2)

2022-08-19

지난 포스팅 '언어 천재가 된 AI, 다국어(Polyglot) 모델 (1)'에서 이어지는 내용입니다. 먼저 확인하고, 이번 콘텐츠를 보는 것을 추천드려요.

'언어 천재가 된 AI, 다국어(Polyglot) 모델 (1)' 보러가기

‍

지난 글에서 알아보았듯이 그동안 AI 번역은 영어 중심으로 이루어졌습니다. 대부분 기계 번역 시스템은 영어를 중간 언어로 이용하는 방식이었죠. 이 방법은 학습, 처리 등 효율성은 좋을 수 있지만 (소수의 선택된 언어를 제외하고는) 해당 언어 고유의 특성을 살리기는 어려웠습니다.

‍

그런데 최근 들어 다국어 기반 언어 및 번역 모델을 개발하는 일이 많아지고 있습니다. 모두가 꿈꾸는 언어장벽 없이 소통하는 세상을 향한 의미있는 발걸음이죠. 특히 저자원 언어(Low-resource language)를 사용하는 (그로 인해 불편함을 겪어왔던) 전 세계 수 많은 사람들을 위해 꼭 필요한 일입니다.

‍

그럼 지금부터는 이에 해당하는 몇 가지 사례들을 살펴보겠습니다.

‍

Meta AI, 다대다 데이터 세트부터 다국어 번역 모델까지

‍

지난 2021년 Meta(당시 FACEBOOK) AI는 전 세계 101개 국 언어를 다루는 다대다(Many-To-Many) 데이터 세트 인 '플로레스-101(FLORES-101)'을 오픈 소스로 발표했습니다. 이는 지식 격차와 문화의 차이, 언어의 장벽을 허물고 사람들을 더 가깝게 만들기 위해서라고 밝혔죠. 연구 결과는 논문^*으로 발표되었고, 데이터 세트는 깃허브^**를 통해 공개했습니다.

‍

이것은 AI 연구자들이 다국어 번역 모델을 연구하고, 더 다양하고 강력한 AI 번역 지원 도구를 개발하는데 많은 도움이 될 행보였습니다. 덕분에 연구자들은 10,100개의 서로 다른 번역 방향으로 벤치마크를 할 수 있게 되었죠. 모델이나 시스템 성능을 평가, 비교하는 것은 연구 과정에서 매우 중요하며 이후 더 많은 언어로 번역 모델을 개발하기 위한 토대가 될 수 있습니다.

‍

이미지: Meta AI Blog

‍

그리고 (물론 그 사이에도 데이터와 모델의 업데이트가 지속되었고) 지난 7월 200개 언어로 텍스트 번역이 가능한 NLLB(No Language Left Behind)-200^***을 오픈소스로 공개합니다. 이름처럼 다른 AI 번역 시스템에서 지원하지 않는 다양한 언어를 지원하게 된 것이죠. 기존 주요 번역 도구가 지원하는 아프리카 언어가 25개 미만이었다면, NLLB-200은 55개를 지원합니다.

‍

또한 이를 뒷받침하기 위해 기존 FLORES-101 데이터 세트를 확장한 FLORES-200^****도 구축했습니다. 200개 언어 간 40,000개의 다른 조합으로 구성되어 있죠. 이 역시 모델의 성능을 평가하고, 개선하는 것은 물론 외부에서도 연구개발에 적용할 수 있게 오픈소스로 공개했습니다.

‍

이미지: Meta AI 블로그

‍

Meta AI는 궁극적으로는 전 세계의 모든 언어 및 방언을 지원하는 단일 모델을 구축하려는 듯합니다.

‍

HuggingFace, 오픈소스 언어 모델 BLOOM

‍

지난 6월 공개 협업 프로젝트 빅사이언스(BigScience)를 통해 기존 (빅 테크 기업들이 만든) 대형 언어 모델의 한계에 대응하는 오픈 소스 언어 모델 블룸(BLOOM)을 공개했습니다. 규모 면에서는 GPT-3와 동등한 초대형 모델이면서, 오픈 소스로 공개되는 다국어 기반의 모델이죠. 특히 전 세계 1,000여 명의 학술 자원봉사자가 함께 힘을 모으고, 언어 모델의 편향과 유해성 개선을 위해 코드와 데이터를 모두 투명하게 공개한 점이 돋보입니다.

‍

이미지: Huggingface

‍

BLOOM에 관해서는 지난 포스팅 ‘오픈소스 언어모델 BLOOM, AI 민주화의 꽃이 될 수 있을까?’에서도 다루었습니다. 좀 더 자세히 알아보고 싶은 분들은 참고해주세요.

'오픈소스 언어모델 BLOOM, AI 민주화의 꽃이 될 수 있을까?' 보러가기

‍

Google Translate, Monolingual Learning & Multilingual Model

‍

구글은 지난 I/O 2002를 통해 번역에 24개의 소수 언어를 추가로 지원한다고 발표했습니다. 구글 번역 역시 언어의 장벽을 없애고, 사람들의 이해와 소통을 돕는 것을 목표로 하거든요. 이번에 인도, 아프리카, 남미의 소수 언어를 추가함으로써 기술 발전의 혜택을 받지 못하던 많은 이들이 더 넓은 세상과 연결될 수있는 기회의 문을 조금 더 연 것입니다.

‍

이미지: 구글 I/O

‍

그리고 그 배경에는 monolingual learning이라는 모델 학습 방법이 자리하고 있습니다. 간단히 말하자면 영어를 거치지 않고 해당 언어 자체를 학습하고 이해하겠다는 거죠. 모든 언어의 번역에 사용할 수 있는 병렬 말뭉치(Parallel text)^*****가 충분치 않은 상황에서 이전에 번역해보지 않은 새로운 언어도 번역할 수 있는 접근법을 찾게 된 것으로 보입니다.

‍

이미지: 구글 I/O

‍

데이터를 얻기 힘든 상황에서 지도 학습(supervised learning)은 어려울 수 밖에 없습니다. 대신 레이블링되지 않은 데이터를 쓰는 일종의 비지도 학습(Unsupervised Learing)을 이용한 것이죠. 이런 식으로 기존 고자원 언어로 잘 학습된 AI가 해당 저자원 언어를 직접 학습하는 방법으로 성능을 올리고 있습니다.

‍

이미지: Google AI Blog

_{"Translation accuracy scores for 638 of the languages supported in our model, using the metric we developed (RTTLangIDChrF), for both the higher-resource supervised languages and the low-resource zero-resource languages.}_******"

‍

마무리하며

‍

이번에 구글이 추가한 24개의 소수 언어만 해도 3억 명이 넘는 사람들이 사용한다고 합니다. 그만큼 아직도 기술 발전에서 소외된 사람들이 훨씬 많다는 의미겠죠. AI는 계속해서 언어 천재로 변화하고 있지만, 언어장벽 없는 세상을 향한 도전의 길은 아직 많이 남아있는 것 같습니다.

‍

그리고 트위그팜 언어처리엔진 LETR 역시 이 길을 함께 걷고 있습니다. 지금 이 순간에도 아시아 언어 중심의 독보적인 언어처리엔진을 향해 발전하고 있죠. 앞으로도 LETR팀은 우리가 만드는 디지털 기술과 그 영향력으로 더 나은 세상을 만들기 위해 계속해서 노력하겠습니다.

‍

* https://arxiv.org/abs/2106.03193

** https://github.com/facebookresearch/flores?fbclid=IwAR0qvXY6LMM5kB3qK8n-8YRfxq_Y-DEBU1f_WWWIAeaPKy826AGNWEMnUfU

*** https://github.com/facebookresearch/fairseq/tree/nllb/?fbclid=IwAR0iXLXmcVSlY-HDO6X4vFZqthZs3Nnuo91TiCfn_HzlyBcYVglj932g6qY

**** https://github.com/facebookresearch/flores

***** https://ko.wikipedia.org/wiki/병렬말뭉치

****** https://ai.googleblog.com/2022/05/24-new-languages-google-translate.html

‍