언어 천재가 된 AI, 다국어(Polyglot) 모델 (1)

3:00 pm

-

August 12, 2022

언어의 한계가 세계의 한계다.(The limits of my language means the limits of my world.)

wittgenstein_LETR
이미지: LITHUB

20세기를 대표하는 철학자 비트겐슈타인이 한 말입니다. 그의 말처럼 인간은 언어로 사고하고, 그 언어의 틀 안에서 살아가죠. 우리는 한국인이니 한국어의 틀 안에서 사고하며 살아갈 것이고, 당연히 우리가 파악하는 세상은 영미권 사람들의 그것과 다를 수 밖에 없을 겁니다.

그러니 더욱 넓고 깊게 세상을 파악하려면 언어로 내 외연을 확장해야 합니다. 하지만 새로운 언어를 익힌 다는 것은 쉬운 일이 아니죠. 그 언어를 제대로 이해하려면, (단순히 어휘를 늘리는 것이 다가 아니라) 그 언어가 속한 국가와 지역, 문화와 사람에 대해서도 알아야 하니까요.

세계는 넓고, 언어는 많다. 그러나 …

전 세계적으로 약 7,100여 개 언어가 있다고 합니다. 그 만큼 아직까지 세상에 공유되지 못한 인류의 지식과 정보는 많이 남아 있겠죠. 인간의 언어 습득 능력의 한계가 안타까울 따름입니다.

languages_LETR
이미지: The Washington Post

한편 온라인 세계는 영어가 지배하고 있습니다. 흔히들 인터넷을 열려있는 정보 공간이라 말하지만, 아마도 영어 사용자에게 한정된 이야기인 것 같네요. 실제로 영어를 쓰지 않는 많은 사람들에게는 엄청난 지식과 정보의 격차가 존재하는게 현실입니다.

Rank Language_LETR
이미지: MADTIMES

영어 위주 자연어처리의 아쉬움

그동안 기계 번역, 언어 모델 등 NLP 연구는 영어 위주였습니다. 아무래도 미국을 비롯한 서구권을 중심으로 발전해왔으니 당연한 일이겠죠. 그러다 보니 영어, 스페인어 등 일부 언어를 제외한 대부분의 언어들은 NLP 연구에서 소외될 수 밖에 없었습니다.

대부분의 다국어 AI 모델 역시 영어에 의존하고 있습니다. 예를 들어 독일어-한국어 번역을 하는 경우 일단 독일어에서 영어로 바꿔주고, 다시 영어에서 한국어로 바꿔주는 식이죠. 예전에는 심심치 않게 볼 수 있던 기계 번역기의 엉뚱한 오역도 이로 인한 영향이 컸을 겁니다.

mistranslation_LETR
이미지: 서울신문

한편 세계화로 인해 NLP 기술의 중요성은 점점 더 커지고 있습니다. 누구에게나 언어의 장벽을 넘어 소통해야 할 일이 점점 더 많아지고 있죠. 하지만 안타깝게도 여전히 전 세계 대부분의 사람들은 AI 번역과 같은 기술 발전의 혜택에서 소외되고 있는 것이 현실입니다.

AI 언어 모델을 학습시킬 수 있는 데이터가 적은 언어를 Low-resource 언어라 합니다. 그런데 잘 알려져 있다시피 NLP 연구에는 상당한 양의 언어 데이터가 필요하죠. 그러다 보니 (전 세계 7,100여 개 언어 중) 일반적으로 많이 사용되는 소수의 선택된 언어를 쓰는 사람들만이 AI 언어 도구를 사용할 수 있게 된 것입니다.

실제로 메타(Meta) AI에 따르면 "전 세계 인구의 20% 이상은 상용화된 번역 기술 서비스를 받을 수 없다." *고 합니다. Low-resource 언어를 사용하는 사람들의 자유로운 소통을 가로막는 디지털 격차가 존재하는 것이죠. 이것이 언어 때문에 전 세계적인 지식, 정보, 문화의 교류에서 소외되고 있는 이들을 위한 솔루션이 절실한 이유입니다.

이미지: Meta AI

마무리하며

본격적으로 다국어 AI에 관해 살펴보기에 앞서 NLP 연구에서 영어 이외의 다양한 언어들이 중요해지고 있는 이유를 살펴봤습니다. 실제로 최근 들어 언어 및 번역 모델을 다국어 기반으로 전환하는 시도가 많아지고 있죠. 이상의 안타까운 상황을 생각하면 지금까지 소외되어 온 전 세계의 더 많은 사람들을 위해 반가운 소식입니다.

이어서 다음 포스팅에서는 실제 업계의 연구개발 사례를 통해 이 주제에 관해 좀 더 들여다보겠습니다.

* 인용 https://www.ciokorea.com/t/22000/AI/243970#csidxaf4c5dbdb5bf6318b0d338efe81a7fa

References

[1] https://www.washingtonpost.com/news/worldviews/wp/2015/04/23/the-worlds-languages-in-7-maps-and-charts/

[2] https://www.ethnologue.com/guides

[3] https://edu.krlo.co.kr/2018/05/09/q-001/

[4] https://ai.facebook.com/blog/teaching-ai-to-translate-100s-of-spoken-and-written-languages-in-real-time/

함께보면 좋은 콘텐츠

  • 오픈소스 언어모델 BLOOM, AI 민주화의 꽃이 될 수 있을까?
  • 인공지능이 한국어를 더 어려워하는 이유?