Product
개요영상그래픽문서
Enterprise
Story
레터/테크 노트소식/공지
Pricing
Ko
한국어English日本語日本語
이용 가이드
레터웍스 시작 
한국어English日本語
한국어English日本語
언어 천재가 된 AI, 다국어(Polyglot) 모델 (2)
2022-08-19

지난 포스팅 '언어 천재가 된 AI, 다국어(Polyglot) 모델 (1)'에서 이어지는 내용입니다. 먼저 확인하고, 이번 콘텐츠를 보는 것을 추천드려요.

'언어 천재가 된 AI, 다국어(Polyglot) 모델 (1)' 보러가기

‍

지난 글에서 알아보았듯이 그동안 AI 번역은 영어 중심으로 이루어졌습니다. 대부분 기계 번역 시스템은 영어를 중간 언어로 이용하는 방식이었죠. 이 방법은 학습, 처리 등 효율성은 좋을 수 있지만 (소수의 선택된 언어를 제외하고는) 해당 언어 고유의 특성을 살리기는 어려웠습니다.

‍

그런데 최근 들어 다국어 기반 언어 및 번역 모델을 개발하는 일이 많아지고 있습니다. 모두가 꿈꾸는 언어장벽 없이 소통하는 세상을 향한 의미있는 발걸음이죠. 특히 저자원 언어(Low-resource language)를 사용하는 (그로 인해 불편함을 겪어왔던) 전 세계 수 많은 사람들을 위해 꼭 필요한 일입니다.

‍

그럼 지금부터는 이에 해당하는 몇 가지 사례들을 살펴보겠습니다.

‍

‍

Meta AI, 다대다 데이터 세트부터 다국어 번역 모델까지

‍

지난 2021년 Meta(당시 FACEBOOK) AI는 전 세계 101개 국 언어를 다루는 다대다(Many-To-Many) 데이터 세트 인 '플로레스-101(FLORES-101)'을 오픈 소스로 발표했습니다. 이는 지식 격차와 문화의 차이, 언어의 장벽을 허물고 사람들을 더 가깝게 만들기 위해서라고 밝혔죠. 연구 결과는 논문*으로 발표되었고, 데이터 세트는 깃허브**를 통해 공개했습니다.

‍

이것은 AI 연구자들이 다국어 번역 모델을 연구하고, 더 다양하고 강력한 AI 번역 지원 도구를 개발하는데 많은 도움이 될 행보였습니다. 덕분에 연구자들은 10,100개의 서로 다른 번역 방향으로 벤치마크를 할 수 있게 되었죠. 모델이나 시스템 성능을 평가, 비교하는 것은 연구 과정에서 매우 중요하며 이후 더 많은 언어로 번역 모델을 개발하기 위한 토대가 될 수 있습니다.

‍

flores data set
이미지: Meta AI Blog

‍

그리고 (물론 그 사이에도 데이터와 모델의 업데이트가 지속되었고) 지난 7월 200개 언어로 텍스트 번역이 가능한 NLLB(No Language Left Behind)-200***을 오픈소스로 공개합니다. 이름처럼 다른 AI 번역 시스템에서 지원하지 않는 다양한 언어를 지원하게 된 것이죠. 기존 주요 번역 도구가 지원하는 아프리카 언어가 25개 미만이었다면, NLLB-200은 55개를 지원합니다.

‍

또한 이를 뒷받침하기 위해 기존 FLORES-101 데이터 세트를 확장한 FLORES-200****도 구축했습니다. 200개 언어 간 40,000개의 다른 조합으로 구성되어 있죠. 이 역시 모델의 성능을 평가하고, 개선하는 것은 물론 외부에서도 연구개발에 적용할 수 있게 오픈소스로 공개했습니다.

‍

NLLB-200
이미지: Meta AI 블로그

‍

Meta AI는 궁극적으로는 전 세계의 모든 언어 및 방언을 지원하는 단일 모델을 구축하려는 듯합니다.

‍

‍

HuggingFace, 오픈소스 언어 모델 BLOOM

‍

지난 6월 공개 협업 프로젝트 빅사이언스(BigScience)를 통해 기존 (빅 테크 기업들이 만든) 대형 언어 모델의 한계에 대응하는 오픈 소스 언어 모델 블룸(BLOOM)을 공개했습니다. 규모 면에서는 GPT-3와 동등한 초대형 모델이면서, 오픈 소스로 공개되는 다국어 기반의 모델이죠. 특히 전 세계 1,000여 명의 학술 자원봉사자가 함께 힘을 모으고, 언어 모델의 편향과 유해성 개선을 위해 코드와 데이터를 모두 투명하게 공개한 점이 돋보입니다.

‍

BLOOM
이미지: Huggingface

‍

BLOOM에 관해서는 지난 포스팅 ‘오픈소스 언어모델 BLOOM, AI 민주화의 꽃이 될 수 있을까?’에서도 다루었습니다. 좀 더 자세히 알아보고 싶은 분들은 참고해주세요.

'오픈소스 언어모델 BLOOM, AI 민주화의 꽃이 될 수 있을까?' 보러가기

‍

‍

Google Translate, Monolingual Learning & Multilingual Model

‍

구글은 지난 I/O 2002를 통해 번역에 24개의 소수 언어를 추가로 지원한다고 발표했습니다. 구글 번역 역시 언어의 장벽을 없애고, 사람들의 이해와 소통을 돕는 것을 목표로 하거든요. 이번에 인도, 아프리카, 남미의 소수 언어를 추가함으로써 기술 발전의 혜택을 받지 못하던 많은 이들이 더 넓은 세상과 연결될 수있는 기회의 문을 조금 더 연 것입니다.

‍

google translate 24 new languages
이미지: 구글 I/O

‍

그리고 그 배경에는 monolingual learning이라는 모델 학습 방법이 자리하고 있습니다. 간단히 말하자면 영어를 거치지 않고 해당 언어 자체를 학습하고 이해하겠다는 거죠. 모든 언어의 번역에 사용할 수 있는 병렬 말뭉치(Parallel text)*****가 충분치 않은 상황에서 이전에 번역해보지 않은 새로운 언어도 번역할 수 있는 접근법을 찾게 된 것으로 보입니다.

‍

monolingual learning
이미지: 구글 I/O

‍

데이터를 얻기 힘든 상황에서 지도 학습(supervised learning)은 어려울 수 밖에 없습니다. 대신 레이블링되지 않은 데이터를 쓰는 일종의 비지도 학습(Unsupervised Learing)을 이용한 것이죠. 이런 식으로 기존 고자원 언어로 잘 학습된 AI가 해당 저자원 언어를 직접 학습하는 방법으로 성능을 올리고 있습니다.

‍

이미지: Google AI Blog

"Translation accuracy scores for 638 of the languages supported in our model, using the metric we developed (RTTLangIDChrF), for both the higher-resource supervised languages and the low-resource zero-resource languages.******"

‍

‍

마무리하며

‍

이번에 구글이 추가한 24개의 소수 언어만 해도 3억 명이 넘는 사람들이 사용한다고 합니다. 그만큼 아직도 기술 발전에서 소외된 사람들이 훨씬 많다는 의미겠죠. AI는 계속해서 언어 천재로 변화하고 있지만, 언어장벽 없는 세상을 향한 도전의 길은 아직 많이 남아있는 것 같습니다.

‍

그리고 트위그팜 언어처리엔진 LETR 역시 이 길을 함께 걷고 있습니다. 지금 이 순간에도 아시아 언어 중심의 독보적인 언어처리엔진을 향해 발전하고 있죠. 앞으로도 LETR팀은 우리가 만드는 디지털 기술과 그 영향력으로 더 나은 세상을 만들기 위해 계속해서 노력하겠습니다.

‍

‍

‍

* https://arxiv.org/abs/2106.03193

** https://github.com/facebookresearch/flores?fbclid=IwAR0qvXY6LMM5kB3qK8n-8YRfxq_Y-DEBU1f_WWWIAeaPKy826AGNWEMnUfU

*** https://github.com/facebookresearch/fairseq/tree/nllb/?fbclid=IwAR0iXLXmcVSlY-HDO6X4vFZqthZs3Nnuo91TiCfn_HzlyBcYVglj932g6qY

**** https://github.com/facebookresearch/flores

***** https://ko.wikipedia.org/wiki/병렬말뭉치

****** https://ai.googleblog.com/2022/05/24-new-languages-google-translate.html

‍

‍

References

[1] https://ai.facebook.com/blog/the-flores-101-data-set-helping-build-better-translation-systems-around-the-world/

[2] https://ai.facebook.com/research/no-language-left-behind/

[3] https://research.facebook.com/file/585831413174038/No-Language-Left-Behind--Scaling-Human-Centered-Machine-Translation.pdf

[4] https://www.aitimes.kr/news/articleView.html?idxno=25475

[5] https://bigscience.huggingface.co/blog/bloom

[6] https://blog.google/technology/developers/io-2022-keynote/

[7] https://ai.googleblog.com/2022/05/24-new-languages-google-translate.html

[8] https://arxiv.org/abs/2201.03110

[9] https://ai.googleblog.com/2016/11/zero-shot-translation-with-googles.html

‍

‍

함께보면 좋은 콘텐츠

  • 언어 천재가 된 AI, 다국어(Polyglot) 모델 (1)
  • 오픈소스 언어모델 BLOOM, AI 민주화의 꽃이 될 수 있을까?
  • 인공지능이 한국어를 더 어려워하는 이유?
  • ‍

    ‍

    🚀데이터 인텔리전스 플랫폼 '레터웍스' 지금 바로 경험해보세요.

    • 노트의 내용을 실제로 이용해 보세요! (한 달 무료 이용 가능 🎉)
    • AI 기술이 어떻게 적용되는지 궁금한가요? (POC 샘플 신청하기 💌)

    ‍

    ‍

    ‍

    전체 목록 보기

    다음 노트 살펴보기

    WORKS note
    월간 인공지능 2호 영상 기반 음성-텍스트 변환 솔루션 비교하기(4편_생성 결과물 비교)
    2025-04-28
    WORKS note
    월간 인공지능 2호 영상 기반 음성-텍스트 변환 솔루션 비교하기(3편_생성 결과물 비교)
    2025-04-25
    WORKS note
    월간 인공지능 2호 영상 기반 음성-텍스트 변환 솔루션 비교하기(2편_인터페이스 비교)
    2025-04-23
    이용 가이드
    문의하기
    (주) 트위그팜
    사업자등록번호 : 556-81-00254  |  통신판매번호 : 2021-서울종로-1929
    대표 : 백선호  |  개인정보관리책임자 : 박현택
    서울 본사 : (03187) 서울 종로구 6(서린동) 6층
    광주 지사 : (61472) 광주광역시 동구 금남로 193-22
    싱가폴 아시아 지사 : (048581) 16 RAFFLES QUAY #33-07 HONG LEONG BUILDING SINGAPORE
    Family site
    TwigfarmLETR LABSheybunny
    이용약관
    |
    개인정보처리방침
    ⓒ 2024 LETR WORKS. All rights reserved.