Product
概要​映像​グラフィック​ドキュメント​
Enterprise
Story
レター/テクノート​ニュース/公知​
Pricing
Ja
한국어English日本語日本語
利用ガイド
LETR WORKSスタート
한국어English日本語
한국어English日本語
2023年第1四半期の人工知能(AI)および自然言語処理(NLP)の主なニュース
2024-07-17

‍

前回の第一四半期の間の主要な人工知能ニュースを集めてみました。 これまでは昨年末に公開されたチャットGPTをはじめとする生成AIが依然として話題のようです。 その他にも注目すべきAI技術や業界及び動向をお伝えします。

‍

‍

1月

グーグル、「チャットGPT」に対する公式立場表明
Source : Google

‍

‍‍グーグルが「OUR FOCUS-Why we focus on AI(and to whatend)」というAIに対する自分たちの観点を表明した文書を発表しました。 簡単に要約すると、AI開発は慎重で責任感を持つべきだということです。 ただ、発表の時期的に外部からの視線はチャットGPTの登場で危機感を感じたグーグルの牽制という解釈が多いです。

‍

References

https://ai.google/our-focus/

https://korea.googleblog.com/2023/01/ai-our-perspective-focus-principle.html

‍

‍

ディープマインド、適応型人工知能「エイダ(AdA)」発表

‍

Source : DeepMind

‍

ディープマインドが人間と同じくらいの速さで正確に問題を解決する適応型人工知能エイダ(AdA)を公開しました。 従来の強化学習AIとは異なり、実験を通じて学習する方法を学んだそうです。 まるで人間や動物が遊びを通して学ぶように課題を遂行する能力を向上させ、新しい課題にも早く適応できると言います。

‍

References

https://sites.google.com/view/adaptive-agent/?pli=1

https://arxiv.org/abs/2301.07608

https://www.techtimes.com/articles/287019/20230131/deepminds-ada-ai-system-solves-new-tasks-quickly-accurately-humans.htm

‍

‍

グーグル、新しいイメージ生成AIミューズ(Muse)公開

‍

이미지 출처: Google

‍

ミューズは、従来のダリ(DALL-E)、イマジン(Imagen)よりもはるかに速く高品質の画像を生成します。 しかも、イメージの品質と正確性も他のモデルより優れているそうです。 グーグルは「細分化された言語理解が可能になり、オブジェクト、空間関係、ポーズなど視覚的概念を理解することができ、テキストだけでマスキング作業が可能になる」と説明しました。

‍

References

https://arxiv.org/abs/2301.00704

https://muse-model.github.io

http://www.newstheai.com/news/articleView.html?idxno=3696

‍

‍

マイクロソフト、音声合成人工知能バリ(VALL-E)を発表

‍

Source : Microsoft

‍

VALL-Eはたった3秒の音声サンプルだけで人の音声だけでなく、感情トーンと録音環境まで模倣します。 つまり電話の音声サンプルを使えば、合成音声も電話のように聞こえるのです。 これをMSは「ニューラルコーデック言語モデル(Neural Codec Language Models)」と名付け、(従来の波形操作による音声合成方法ではなく)テキストと音響プロンプトで個別のオーディオコーデックコードを生成する方式です。

‍

References

https://arxiv.org/abs/2301.02111

https://valle-demo.github.io

https://www.thedailypost.kr/news/articleView.html?idxno=91008

‍

‍

2月

グーグル、バード(Bard)公開

‍

Source : Economictimes

‍

Googleはラムダ(LaMDA)ベースの実験的なインタラクティブな人工知能バードを公開しました。 バードはラムダの軽量モデルバージョンで、チャットGPTの対抗馬とされていました。 ただ公開以後、エラーが発生して株価が大幅に下落するハプニングがあり、先日検索ではなく別途のチャットサービスで米国と英国で優先発売されました。

‍

References

https://bard.google.com

https://blog.google/technology/ai/try-bard/

https://blog.google/technology/ai/bard-google-ai-search-updates/

https://www.technologyreview.com/2023/03/21/1070111/google-bard-chatgpt-openai-microsoft-bing-search/

‍

‍

マイクロソフト、チャットGPT導入して新しくなったビング(Bing)公開

‍

Source : Microsoft

‍

MSがチャットGPT機能が導入された新しいビングを公開しました。 これを「検索の再発明、ウェブのための副操縦士(your copilot for the web)」と紹介しました。 この他にもMSはオープンAIに100億ドルを追加投資すると知られていて、以降のオフィスなど全製品群にGPT技術を適用する計画だと明らかにしました。

‍

References

https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new-ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/

https://www.itworld.co.kr/news/276655#csidxa068bf634d0830c9b213c3120a547d9

‍

‍

メタ、AI言語モデルのツールフォーマー(Toolformer)公開

‍

Source : META

‍

メタ(META)がツールの使い方を自ら学習できるAI言語モデルツールフォーマーを公開しました。 API呼び出し機能を通じて検索、電卓、カレンダー、翻訳機のような外部ソフトウェアツールを使用できる機能を備えたのです。 これを通じて自然言語処理で莫大な能力を見せてくれますが、算術や事実確認のような他の基本作業には困難だった既存の言語モデルの限界を克服しようとする試みです。

‍

References

https://arxiv.org/abs/2302.04761

https://arstechnica.com/information-technology/2023/02/meta-develops-an-ai-language-bot-that-can-use-external-software-tools/

https://www.aitimes.com/news/articleView.html?idxno=149518

‍

‍

3月

‍

オープンAI、次世代大型言語モデルGPT-4を公開
Source : OpenAI

GPT-4はマルチモーダル機能を加えた大型言語モデルです。 テキストとイメージの両方に反応でき、チャットGPTよりも大きく、優れたモデルです。 ただ、発売と共に導入ラッシュが行われ爆発的な関心を呼び起こしましたが、以前とは異なりオープンAIが技術情報のほぼ公開せず、多くの批判を受けました。

‍

‍

References

https://openai.com/product/gpt-4

https://openai.com/research/gpt-4

https://arxiv.org/abs/2303.08774

https://www.technologyreview.com/2023/03/14/1069823/gpt-4-is-bigger-and-better-chatgpt-openai/

‍

‍

オープンAI、チャットGPTプラグイン公開

‍

Sorce : Sam Altman 트위터

既に知られているように、チャットGPTは2021年までのデータで学習しました。 つまり、その後の情報は知らないという限界がありましたが、今回の外部APIを連動させたことで様々な機能を追加できるチャットGPTプラグインが公開されました。 これで従来よりもはるかに多様な機能を遂行できるようになっただけでなく、信頼性と正確性も向上したといいます。

‍

References

https://openai.com/blog/chatgpt-plugins

https://platform.openai.com/docs/plugins/introduction

https://github.com/openai/chatgpt-retrieval-plugin

https://www.zdnet.com/article/chatgpt-is-getting-access-to-the-internet-heres-what-that-means-for-you/

‍

グーグル、マルチモーダル言語モデル「パーム-E(PaLM-E)」を公開

‍

Sorce : Google

グーグルが言語と視覚認識機能を備えたマルチモーダル言語モデルのPaLM-Eを公開しました。 以前公開した大規模言語モデルPaLMにビジョンモデルとロボット制御を追加したのです。 今や言語モデルがテキストを越えてイメージ、オーディオ、映像情報を理解しロボットを制御するなど活用範囲が大きく増えるものと見られます。

‍

References

https://ai.googleblog.com/2023/03/palm-e-embodied-multimodal-language.html

https://palm-e.github.io

https://palm-e.github.io/assets/palm-e.pdf

‍

‍

마이マイクロソフト、マルチモーダル大型言語モデルKosmos-1を公開

‍

Sorce : Microsoft

MSが自然言語処理だけでなく、視覚機能も備えたマルチモーダル大型言語モデル(Kosmos-1)を公開しました。 つまり、これまでオープンAI技術を積極的に活用する一方で、MS内部で独自開発も同時に進めてきたのです。 コスモス-1はイメージを分析して質問に答えられますが、視覚的知能(IQ)を測定するレーヴン漸進的マトリックス(Raven's Progressive Matrices)でも一部の成果(22~26%正解率)を出すなど言語モデルの非言語的推論遂行の可能性を示しました。

‍

References

https://arxiv.org/pdf/2302.14045.pdf

https://github.com/microsoft/unilm

https://techrecipe.co.kr/posts/51346

‍

‍

ビル・ゲイツ「AIは私の生涯で2番目に革命的な技術」

‍

Source : BBC

ビル・ゲイツが自分のブログを通じて人工知能、特に生成AIを現時代で最も重要な革新として挙げました。 「自分の生涯で(彼がMSを設立するのに影響を与えたりもした)GUI(Graphic User Interface)以後、大きな衝撃を受けた革命的な技術だ」と明らかにしました。 これにより、世界が根本的に変化すること(「Artificial intelligence is as revolutionary as mobile phones and the Internet」)と期待を表明する一方、AI技術の恩恵を平等を享受できるようなルールが必要だと強調しました。

‍

References

https://www.gatesnotes.com/The-Age-of-AI-Has-Begun

https://www.bbc.com/news/technology-65032848

‍

‍

おわりに

ビル・ゲイツだけでなく、全世界で生成AIが私たちの生きる世界をどのように変化させるか期待と憂慮を共に表明しています

先日、ディープラーニングの代母と呼ばれるフェイフェイ・リー(Fei-Fei Li)もスタンフォードHAI(Human Centered Artificial Intelligence)が発表した報告書「Generative AI:Perspectives from Stanford HAI」*を通じて生成AIを「AIの偉大な変曲点(AI's Great Inflection Point)」と言及しています。 「人間が見ることができる機械」の発展に多大な貢献をしてきた彼女が、今は「人間が見ることができないものを見ることができるAI」を作ることを考えられる時点だとし、大きな期待感を示したのです。 ただ、それと同時にAIの偏向性、悪意的な使用の可能性に対する懸念を示しました。 新しい機会を完全に実現するためには、格別な注意と危険度の評価が必ず必要だという指摘です。

最近、あふれ出ているAI関連のニュースを見守りながら、多くのことを考えるしかありませんでした。 AI技術の急速な発展により、人類はこれからきらびやかなバラ色の道を歩むことになるのか、それとも暗くて悲惨な未来を迎えるのか? 今、我々はこれを決定するかもしれない重大な岐路に立たされているのです。

‍

* https://hai.stanford.edu/sites/default/files/2023-03/Generative_AI_HAI_Perspectives.pdf

‍

‍‍

全リストを見る

次のノートを見る

LETR note
コンテンツ制作におけるパラダイムイノベーション-AI吹き替え技術の現在と未来
2024-12-12
WORKS note
NERと自然言語処理を利用したレターワークスのAIエージェント
2024-12-11
WORKS note
マルチモーダルのコンセプトとアプリケーション、LETR WORKS AI テクノロジー
2024-12-02
利用ガイド
お問い合わせ​
Twigfarm Co.,Ltd.
事業者登録番号 : 556-81-00254  |  通信販売番号 : 2021-ソウル特別市鍾路-1929
代表 : ペク・ソンホ  |  個人情報管理責任者 : パク・ヒョンテク
ソウル本社 : (03187) ソウル特別市鍾路区6(瑞麟洞)6階
光州支社 : (61472 )光州広域市東区錦南路 193-22
シンガポールアジア事務所 : (048581) 16 RAFFLES QUAY #33-07 HONG LEONG BUILDING SINGAPORE
Family site
TwigfarmLETR LABSheybunny
利用約款
|
プライバシー規約
ⓒ 2024 LETR WORKS. All rights reserved.