人工知能への感性の追加、マルチモーダル (マルチモーダル) AI

2024-07-17

ほとんどの人工知能は、1 つのことだけをうまく処理できるように訓練されています。もちろん、その一つに特化したAIモデルそれぞれの性能が強力ではあります。まるでチェスの世界チャンピオンを破ったIBMのスーパーコンピューター「ディープブルー(Deep Blue)」と同じです。

‍

当時、人々は人間の敗北を見て、今やコンピューターが人間を圧倒するのではないかと心配していました。ところが、実際の世の中はチェス盤の上よりはるかに複雑で、実はディープブルーはチェス以外には何もできなかったんです。まさにこういうところに技術の限界があり、まだAIが人間を超えることができない理由でもあります。

‍

「実際、ルールと論理が支配するチェスは比較的コンピューターにとって有利なゲームです。むしろ人間はあまり意識せずに自然に遂行することをもっと難しく感じます。例えば、複雑な道路の上で運転したり、会話をしながら友達の感情を読み取るという日常的なことです。」*

‍

言語モデルの限界

オープンAIのGPT-3は人類の歴史上で最も優れたAIと呼ばれました。人と会話するようにチャットができ、更には長文の文章も書くことができるからです。それも中途半端なレベルではなく、マスコミにコラムを寄稿したり、小説を書いたりしました。

ただ、こんなに強力なGPT-3も従来のAIと同じ限界を持っています。（とてつもない大規模な分量ですが）テキストデータだけで学習をしたんです。言語能力だけを見れば人間に近いようですが、（世の中を文章で学んで）奇妙であったり、基礎的な間違いをする場合もかなりあります。

以下は海外のAI専門家が見つけたGPT-3のミスの事例です。前述したAIの限界を確認することができます。私たちがよく言う「常識」がないように感じます。**

‍

Q: How many eyes does a giraffe have?

A: A giraffe has two eyes.

‍

Q: How many eyes does my foot have?

A: Your foot has two eyes.

‍

Q: How many eyes does a spider have?

A: A spider has eight eyes.

‍

Q: How many eyes does the sun have?

A: The sun has one eye.

‍

Q: How many eyes does a blade of grass have?

A: A blade of grass has one eye.

‍

マルチモーダルAIの登場

一方、人間はテキストだけで世界を理解しているわけではありません。テキストはもちろん、画像、オーディオ、ビデオなど様々なフォーマットの情報を受け入れて共有しながらコミュニケーションを取ります。おかげで立体的で直観的な思考が可能で、相手と共感しながら話し合うこともできます。

‍

これがまさに最近AI業界の主要話題の一つであり、今回のポストのテーマであるマルチモーダルAIが登場した理由です。

‍

マルチモーダルAIはイメージ、テキスト、音声、ビデオなど様々なモダリティ***を同時に受け入れて使用します。音声、ジェスチャー、視線、表情、生体信号など様々なデータを受けて人間を真似した総合的な思考ができます。このように私たちが世の中を受け入れる方式に近づいたAIは、人間とより自然にコミュニメーションを取ることが出来ます。

‍

また、文章を書く以外にも様々なことができます。多様なデータを基盤に新しい仕事ができるように進化するのです。例えば、様々な画像を学習してクリエイティブなデザインをしたり、簡単なテキストを映像にすることもできます。

‍

マルチモーダルAIの時代

まずはGPT-3のような言語モデルに感覚を加える試みが行われました。感覚認識分野で歴史と伝統があるコンピュータービジョンが先に適用され始めました。もし単語と視覚情報を連携できれば、モデルの読解力はもちろん、今後とも適用できる分野も拡大するだろうと期待したからです。

‍

그 その結果、このような試みがついに軌道に乗ったことを知らせたのが「ダリ(DALL-E)」です。オープンAIがGPT-3に続き、もう一度驚くべき成果を見せてくれたのです。超巨大マルチモーダルAI DALL-EはNLP技術にイメージ認識を加えた結果、新しいイメージを創造できるようになりました。

‍

続いて、2022年に発表されたDALL-E 2はここから一歩進んだ成果を示しています。既存の写真を編集して修正する新しい機能が追加されるなどアップグレードされたんです。おかげで、以前よりはるかに発展したリアルでありながら芸術的な高解像度のイメージを作り出すことができるようになりました。

‍

また、DALL-Eの他にも様々なマルチモーダルAIが引き続き公開されています。グーグルはテキスト-イメージ拡散モデル（Diffusion Model）であるイマジェン（Imagen）を公開し、国内企業も続々と参入している状況です。カカオブレーンのミンダリ（minDALL-E）はダリと似た結果を見せ、LG AI研究院はテキストとイメージ間の双方向思考が可能なエクサウォン（EXAONE）を発表しました。

‍

マルチモーダルAIの副作用

‍

マルチモーダルAIも言語モデルと同様、倫理的問題から自由ではありません。学習データの偏りに影響を受けるしかない現在のAIの共通的な問題です。既に世の中に広がっている人種や性別などに関する誤った偏見を学習したAIが問題を起こす可能性があるのです。

‍

そのため、ほとんどのマルチモーダルAIは公開や使用に制約を置いています。有害な画像をフィルタリングし、特に実際の人の画像の生成は厳しく禁止しています。偏向性に対する根本的な解決策が出ない限り、一部の悪意的なユーザーが攻撃的、扇情的な結果物を作り出す可能性があるためです。

‍

ただし、研究者たちもこのような問題を放置しているわけではありません。マルチモーダルAIの登場後に現れた様々な事例やデータ、フィードバックを収集しながら、引き続き改善しています。 DALL-Eの場合、偏向していないイメージ生成のための技術を開発し、フィルタリングを強化して有害なイメージを遮断するなど、多角的な努力を繰り広げています。

‍

マルチモーダルAIは潜在的な可能性が秘めています。ただ、すべてのAI技術がそうであるように、結局は人類に役立つ方向に発展しなければなりません。究極的にAIが人類にとって脅威ではなく機会になるように、より倫理的で責任ある開発と使用が行われなければなりません。

‍

* 間接引用 https://www.technologyreview.kr/aiの-過去を-通して-aiの-未来を-見る/

** 抜粋/まとめhttps://lacker.io/ai/2020/07/06/giving-gpt-3-a-turing-test.html, https://multiverseaccordingtoben.blogspot.com/2020/07/gpt3-super-cool-but-not-path-to-agi.html https://lacker.io/ai/2020/07/06/giving-gpt-3-a-turing-test.html

*** https://en.wikipedia.org/wiki/Modality_(human–computer_interaction)

**** https://www.ted.com/talks/jeff_dean_ai_isn_t_as_smart_as_you_think_but_it_could_be

‍

References

[1] https://www.technologyreview.kr/aiの-過去を-通して-aiの-未来を-見る/

[2] https://www.blog.google/products/search/introducing-MUM/

[3] https://www.ted.com/talks/jeff_dean_ai_isn_t_as_smart_as_you_think_but_it_could_be

[4] https://openai.com/dall-e-2/

[5] https://openai.com/blog/dall-e-2-extending-creativity/

[6] http://www.aitimes.com/news/articleView.html?Idxno=144897http://www.aitimes.com/news/articleView.html?idxno=144897

[7] https://www.kakaobrain.com/contents?contentId=6c33343e-4c3c-4bf5-8927-7649d90bab98

[8] http://www.aitimes.com/news/articleView.html?Idxno=141958http://www.aitimes.com/news/articleView.html?idxno=141958

[9] [9] http://www.aitimes.com/news/articleView.html？Idxno=144483http://www.aitimes.com/news/articleView.html?idxno=144483

[10] http://www.aitimes.com/news/articleView.html？Idxno=145260http://www.aitimes.com/news/articleView.html?idxno=145260

[11] https://openai.com/blog/reducing-bias-and-improving-safety-in-dall-e-2/

‍

全リストを見る

次のノートを見る

WORKS note

🎬LETR WORKS実務のヒント：メディアコンテンツキットでプロモーション成果を200%測定する方法

2026-03-17

WORKS note

AIを「賢く使いこなす」5つの法則 - 第2弾

2026-01-12

WORKS note

AIを「賢く使いこなす」5つの法則 - 第1弾

2025-12-30