2022年上半期の自然言語処理（NLP）に焦点を当てた主要な人工知能（AI）ニュース

2024-07-17

これは、過去1年上半期の主要なAIニュースの要約です。特に、同じくLETRと密接な関係にある自然言語処理の分野のニュースを集めました。さらに詳しく知りたい人のために、関連する参考文献も掲載しています。

‍

一月

メタ、音声、画像、文字を同時に認識する自己指導型学習アルゴリズムData2Vecの開発

‍

画像:メタ AI

‍

メタ（メタ）AIは、音声、テキスト、画像を同時に認識するAIセルフガイド学習アルゴリズムを開発しました。これにより、音声、テキスト、画像の分野でさまざまな方法で行われていた従来のアルゴリズム研究のパラダイムが変わりました。メタ研究者は、これがジェネラル・モデル・アーキテクチャ (ジェネラル・モデル・アーキテクチャ) の開発の基礎になると確信していました。

‍

参照

https://ai.facebook.com/blog/the-first-high-performance-self-supervised-algorithm-that-works-for-speech-vision-and-text/

https://github.com/facebookresearch/fairseq/tree/main/examples/data2vec

https://arxiv.org/abs/2202.03555

‍https://www.technologyreview.com/2022/01/20/1043885/meta-ai-facebook-learning-algorithm-nlp-vision-speech-agi/

https://byline.network/2022/01/21-168/

http://www.aitimes.com/news/articleView.html?idxno=142722

‍

2月

ディープマインドとコーディング用のAIアルファコードの開発

画像:ディープマインド

‍

ディープマインドがコーディングした人工知能アルファコード (アルファコード) を開発しました。アルファコードは平均以上の能力を持っていることが知られており、これは人間の開発者の上位 54% に相当します。これは、命令をコードに変換するだけしかできない従来の大規模言語モデルの限界を超えています。

‍

参照

https://www.deepmind.com/blog/competitive-programming-with-alphacode

https://alphacode.deepmind.com/

https://arxiv.org/abs/2203.07814

http://www.aitimes.com/news/articleView.html?idxno=142892

https://byline.network/2022/02/3-108/

‍

OpenAI は GPT-3 の問題を改善する InstructGPT の新しいバージョンを開発しています

‍

画像:OpenAI

‍

参照

https://openai.com/blog/instruction-following/#moon

https://github.com/openai/following-instructions-human-feedback

https://arxiv.org/abs/2203.02155

https://www.technologyreview.kr/new-gpt3-openai-chatbot-language-model-ai-toxic-misinformation/

https://littlefoxdiary.tistory.com/101

‍

行進

スタンフォード大学が人間中心人工知能研究所2022年次報告書を発表

‍

画像:スタンフォード大学 HAI

‍

スタンフォード大学人間中心人工知能（人間中心人工知能）。HAI）は、「人工知能インデックス2022（人工知能インデックス2022）」を発表しました。このレポートのテーマは「人工知能の産業化と増大する倫理的問題（AIの産業化と倫理的実装）」でした。特に、9つのキーポイントがあります。「▷ 人工知能への民間投資の急増、投資重視の強化、▷ AIに関する米国、中国、各国間の協力の推進 ▷ 言語モデルの能力はかつてないほど高まっていますが、偏りが増しています。「至る所での AI 倫理の高まり ▷ AI は安価になり、性能も向上している ▷ データ、データ、データ ▷ 人工知能に関する世界的な法律はかつてないほど増えている ▷ ロボットアームは安くなっている」という内容が盛り込まれました。

‍

参照

https://aiindex.stanford.edu/report/

https://hai.stanford.edu/news/state-ai-9-charts

https://hai.stanford.edu/news/2022-ai-index-ais-ethical-growing-pains

https://hai.stanford.edu/news/2022-ai-index-industrialization-ai-and-mounting-ethical-concerns

‍

4月

Google AI、オープンソースの CVSS として 21 の多言語大規模コーパスを公開

‍

画像:グーグル AI

‍

Google AIは、オープンソースとして大規模な多言語音声翻訳コーパス（CVSS）をリリースしました。これは、新世代のS2ST（音声読み上げ翻訳）研究と人工知能音声変換アプリケーションの開発を促進するためのものであることが知られています。CVSSには、ソース音声に加えて2つのS2STデータセット（それぞれ1,872時間と1,937時間の会話）が含まれており、翻訳された音声に加えて、正規化された番号、通話、翻訳された音声の発音と一致する単語などの翻訳済みテキストも提供します

‍

参照

https://ai.googleblog.com/2022/04/introducing-cvss-massively-multilingual.html

https://arxiv.org/abs/2201.03713

https://github.com/google-research-datasets/cvss

https://research.google/tools/datasets/speech-to-speech-translation-corpus/

https://www.marktechpost.com/2022/04/07/google-ai-introduces-a-common-voice-based-speech-to-speech-translation-corpus-cvss-that-can-be-directly-used-for-training-direct-s2st-models-without-any-extra-processing/

http://www.aitimes.kr/news/articleView.html?idxno=24706

‍

グーグル、超巨大言語モデルParMを発表

‍

画像:グーグル AI

‍

Googleは新しい言語モデル、PaLM（パスウェイズ・ランゲージ・モデル）を発表しました。これは5,400億個のパラメータを持つ超大規模な言語モデルで、Open AI の GPT-3 の約3倍の規模です。問題の解き方を学習することで、算術だけでなく自然言語の理解や生成など、さまざまな問題を解決できる強力なパフォーマンスを備えた単一の AI モデルです。

‍

参照

https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html

https://arxiv.org/abs/2204.02311

https://www.infoq.com/news/2022/04/google-palm-ai/

https://byline.network/2022/04/7-138/

http://www.aitimes.com/news/articleView.html?idxno=143840

‍

オープンAI、画像生成用の人工知能であるDALL·Eの新バージョンを発表

‍

画像:OpenAI

‍

OpenAIは、テキストを画像として生成するAIであるDALL·Eの新しいバージョンをリリースしました。DALL・E 2は、新しい画像を高解像度で作成できるだけでなく、画像の編集も可能です。今後は、デザイナーやアーティストに新しいアイデアを提供するなど、さまざまな活用が期待されています。

‍

参照

https://openai.com/dall-e-2/

https://arxiv.org/abs/2204.06125

https://towardsdatascience.com/dall-e-2-explained-the-promise-and-limitations-of-a-revolutionary-ai-3faf691be220

http://www.aitimes.com/news/articleView.html?idxno=143854&page=4&total=638

https://byline.network/2022/04/8-127/

‍

5月

グーグル、AI言語モデルLamDa 2をテストするためのAIテストキッチンを発表

‍

画像:グーグル

‍

Google I/O 2002 は、AI 言語モデル LamDa 2 のエラー検索などのベータテスト用アプリ「AI テストキッチン」を発表しました。AIでアイディアを想像する、特定の話題について話す、やることリストを整理するなど、全部で3つの機能が紹介されました。これは一種のクラウドソーシングによるテストで、後ほど AI 言語モデルに関する問題の改善に役立つことが期待されています。

‍

参照

https://io.google/2022/intl/ko/

https://aitestkitchen.withgoogle.com

https://www.xda-developers.com/google-new-ai-test-kitchen-test-conversational-ai/

https://www.theverge.com/2022/5/11/23065072/google-ai-app-test-kitchen-future-io-2022

https://www.wired.kr/news/articleView.html?idxno=3929

http://www.aitimes.com/news/articleView.html?idxno=144546

‍

Meta、自社開発の超巨大AI言語モデルをオープンソースとして発表

‍

画像:メタ AI

‍

メタ人工知能研究所（Meta AI）は、1750億個のパラメータを持つ超大型AI言語モデル「オープンプレトランスフォーマー（以下、OPT-175B）」をオープンソースとしてリリースしました。さらに、事前にトレーニングされたモデルとコードがすべて含まれていることが知られています。これは大胆かつ歓迎すべき動きであり、特に AI バイアスなどの問題の解決に役立つことが期待されています。

‍

参照

https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/

https://github.com/facebookresearch/metaseq

https://arxiv.org/abs/2205.01068

https://www.technologyreview.kr/메타-자체-개발한-대형언어모델-무료-공개/

http://www.aitimes.kr/news/articleView.html?idxno=25025

‍

DeepMindは、複数のタスクを実行する新しいAIシステムであるGatoを発表しました

‍

画像:ディープマインド

‍

DeepMindは、単一のニューラルネットワークモデルでさまざまな形式のデータを処理することで複数のタスクを実行できる汎用エージェントであるGato（Gato）を発表しました。DeepMindは、Gatoが604件のタスクを実行でき、そのうち450件で人間の専門家よりも優れていることを明らかにしました。しかし、これが汎用人工知能への一歩前進であるという主張は、多くの批判と論争を巻き起こしました。

‍

参照

https://www.deepmind.com/publications/a-generalist-agent

https://arxiv.org/abs/2205.06175

https://www.independent.co.uk/tech/ai-deepmind-artificial-general-intelligence-b2080740.html

https://www.technologyreview.kr/deepmind-gato-ai-model-hype/

https://towardsdatascience.com/gato-the-latest-from-deepmind-towards-true-ai-1ac06e1d18cd

http://scimonitors.com/딥마인드-새로운-ai-gato는-agi인가/

‍

グーグル、画像作成用の人工知能であるImagenを発表

‍

画像:グーグル

‍

Googleは、テキストを画像として生成するAIシステムであるImagenを導入しました。ベンチマーク評価の結果、Open AI の DALL-E などの競合モデルよりも好まれることが発表されました。しかし、他のモデルと同様に、悪用、偏見、差別的態度の反映などの副作用が懸念され、一般には公開されませんでした。

‍

参照

https://imagen.research.google

https://arxiv.org/abs/2205.11487

https://www.assemblyai.com/blog/how-imagen-actually-works/

https://www.technologyreview.kr/dark-secret-cute-ai-animal-images-dalle-openai-imagen-google/

http://www.aitimes.com/news/articleView.html?idxno=144897

‍

六月

GitHubがノーコーディングAIコパイロットを正式に開始

‍

画像:GitHub

‍

GitHubは、コーディング不要のAIツールであるコパイロット（コパイロット）を正式にリリースしました。Copilot は OpenAI のコーデックス (コーデックス) と GitHub のコードデータベースに基づいて構築され、約 1 年前にリリースされました。しかし、その後、アマゾンウェブサービスやGoogle DeepMindもコーディング用のAIをリリースしてきましたが、これまではすべてコーディングの補助としての役割を果たすだけで、完璧なコードを書くわけではないと言われています。

‍