言語の天才になったAI、多言語 (ポリグロット) モデル (2)

2024-07-17

前回の記事「AIは言語の天才になった、ポリグロット（ポリグロット）モデル（1）」からの続きです。最初にチェックしてからこのコンテンツを見ることをお勧めします。

「AIは言語の天才になった、ポリグロット（ポリグロット）モデル（1）」へ

‍

前回の記事で見たように、AI翻訳は英語を中心に行われてきました。ほとんどの機械翻訳システムは英語を中間言語として使用していました。この方法は、学習や処理などには効果的ですが（一部の言語を除く）、言語特有の特性を生かすことは困難でした。

‍

しかし最近では、多言語言語と翻訳モデルの開発が増加しています。これは、誰もが夢見ているように、言葉の壁なくコミュニケーションできる世界に向けた有意義な一歩です。これは特に、資源の少ない言語 (資源の少ない言語) を使っている (そのために不便を感じている) 世界中の多くの人々にとって必要なことです。

‍

それでは、これに対応する例をいくつか見てみましょう。

‍

多対多のデータセットから多言語翻訳モデルまでのメタAI

‍

2021年、メタ（当時はフェイスブック）のAIが、世界中の101言語をカバーする多対多（多対多）のデータセット「フローレス101（FLORES-101）」をオープンソースとしてリリースしました。これは、知識のギャップ、文化の違い、言語の壁を打破し、人々の距離を縮めるためだと彼らは述べました。研究成果は論文です。^*に公開され、データセットは GitHub にあります^**を通じてリリースされました

‍

これは、AI研究者が多言語翻訳モデルを研究し、より多様で強力なAI翻訳支援ツールを開発するのに大いに役立つステップでした。このおかげで、研究者は10,100種類の翻訳方向をベンチマークすることができました。モデルやシステムのパフォーマンスを評価して比較することは研究プロセスにおいて非常に重要であり、後でより多くの言語への翻訳モデルを開発するための基礎となります。

‍

画像:メタ AI ブログ

‍

そして（もちろん、その間もデータとモデルの更新は続きました）NLLB（No Language Left Behind）-200では、昨年7月にテキストを200の言語に翻訳できます^***オープンソースとしてリリースされます。その名の通り、現在では他の AI 翻訳システムではサポートされていないさまざまな言語がサポートされています。既存の主要な翻訳ツールがサポートするアフリカ言語が25言語未満の場合、NLLB-200は55言語をサポートします。

‍

さらに、これをサポートするために、FLORES-200は既存のFLORES-101データセットを拡張します^****それも作りました。200の言語の40,000通りの組み合わせで構成されています。また、モデルのパフォーマンスを評価して改善したり、外部の研究開発に応用したりできるように、これはオープンソースとしてもリリースされました。

‍

画像:メタ AI ブログ

‍

最終的に、Meta AIは、世界中のすべての言語と方言をサポートする単一のモデルを構築したいと考えているようです。

‍

ハギングフェイス、オープンソース言語モデル BLOOM

‍

昨年6月、パブリックコラボレーションプロジェクトBigScience（BigScience）を通じて、既存の大規模言語モデル（大手テクノロジー企業によって作成された）の制限に対応するオープンソース言語モデルであるBLOOM（BLOOM）を発表しました。規模という点では、GPT-3 と同等の非常に大きなモデルで、オープンソースの多言語モデルです。特に、言語モデルの偏りや有害性を改善するために、世界中から集まった1,000人以上の学術ボランティアが力を合わせ、コードとデータの両方を透明に公開したことは際立っています。

‍

画像:ハグフェイス

‍

BLOOMについては、以前の記事「オープンソース言語モデルのBLOOMはAI民主化の花になれるのか？」「もっと詳しく知りたい方はチェックしてみて」でも取り上げられました。

「オープンソースの言語モデルであるBLOOMは、AIの民主化の花になることができるのか？'見に行って

‍

Google翻訳、単一言語学習、乗算モデル

‍

Google は、I/O 2002 による翻訳対象として、さらに 24 の少数言語をサポートすることを発表しました。Google 翻訳は、言語の壁を取り除き、ユーザーの理解とコミュニケーションを支援することも目的としています。インド、アフリカ、南米の少数言語が追加されたことで、テクノロジーの進歩による恩恵を受けていない多くの人々が、より広い世界とつながる機会が少し増えました。

‍

画像:グーグル I/O

‍

そしてその背後には、モノリンガル学習というモデル学習法があります。簡単に言うと、私は英語を経由せずに言語そのものを学び、理解したいと思っています。どんな言語でも翻訳できる対訳テキスト (パラレルテキスト)^*****これだけでは不十分な状況で、これまで翻訳されていない新しい言語を翻訳できるアプローチを見つけたようです。

‍

画像:グーグル I/O

‍

教師付き学習（教師付き学習）は、データを得るのが難しい状況では必ず難しくなります。その代わり、ラベル付けされていないデータを使用する一種の教師なし学習 (教師なし学習) を使用します。このように、既存の高リソース言語で十分に学習してきたAIは、対応する低リソース言語を直接学習することでパフォーマンスを向上させています。

‍

画像:グーグル AI ブログ

_{「私たちのモデルでサポートされている638の言語の翻訳精度スコアは、私たちが測定した指標（RTTLangidChRF）を使用して、リソースの多い教師付き言語とリソースの少ないゼロリソース言語の両方を対象としています。}_******」

‍

仕上げ中

‍

Googleが今回追加した24の少数言語は、3億人以上が使用していると言われています。それはおそらく、技術の進歩から取り残された人がまだはるかに多いということでしょう。AIは言語の天才に変わり続けていますが、言語の壁のない世界に挑戦する方法はまだたくさんあるようです。

‍

そして トゥイッグ・ファーム言語処理エンジン LETR 結局のところ、私たちは一緒にこの道を歩んでいます。今この瞬間でも アジア言語を中心とした比類のない言語処理エンジン今後、LETRチームは、私たちが生み出すデジタルテクノロジーとその影響力を利用して、より良い世界を創造するために引き続き取り組んでいきます。

‍

* https://arxiv.org/abs/2106.03193

** https://github.com/facebookresearch/flores?fbclid=IwAR0qvXY6LMM5kB3qK8n-8YRfxq_Y-DEBU1f_WWWIAeaPKy826AGNWEMnUfU

*** https://github.com/facebookresearch/fairseq/tree/nllb/?fbclid=IwAR0iXLXmcVSlY-HDO6X4vFZqthZs3Nnuo91TiCfn_HzlyBcYVglj932g6qY

**** https://github.com/facebookresearch/flores

***** https://ko.wikipedia.org/wiki/병렬말뭉치

****** https://ai.googleblog.com/2022/05/24-new-languages-google-translate.html

‍