こんにちは。
前回の第1弾では、ソブリンAIという概念についてお話ししました。第2弾となる今回は、私たちが最近実施した映像データ構築プロジェクトをソブリンAIの観点からご紹介いたします。
🎥 文化特有の映像理解データプロジェクトとソブリンAI
私たちが実行した**「文化特有の映像理解データ」プロジェクト**は、韓国(または日本)と関連する映像データをAI学習用として構築するものでした。約41,000枚の画像と、それぞれの画像に対する詳細な説明文205,000文で構成されています。
データは以下の手順で構築されました。
1) 番組・映像コンテンツから文化関連画像を抽出し、専門家が確認・監修
2) 画像ごとに5つの説明文を生成(画像キャプショニング、つまり画像の説明文作成作業)
3) 画像と説明文の監修、不適切な表現の修正・補完
4) 品質検証と妥当性評価
このプロセスを通じて、私たちは文化固有のコンテクストをより深く理解できるAI学習用データを構築することができました。
では、なぜこのようなデータが重要なのでしょうか? AIモデルは、学習データによって思考や表現の方法が異なります。ChatGPTやGeminiのような海外ビッグテックの汎用モデルは世界中のデータを広く扱いますが、私たちが求める日本(または韓国)固有の生活や文化が反映されたデータは相対的に少ないのが現状です。したがって、文化的な文脈が込められたデータを正しく理解できる現地の専門家が直接AIモデルを構築することが、最も望ましい方法だと言えるでしょう。
例えば、ChatGPTやGeminiに「宮殿」という言葉から連想される画像を一つ生成するようリクエストしたところ、このような画像が生成されました。皆さんが思い浮かべた宮殿の姿と一致するでしょうか?西洋圏以外の国の人々が思い浮かべる宮殿のイメージとは、かなり異なるかもしれません。
<ChatGPTとGeminiが生成した「宮殿」の画像>
このような側面から、私たちが実施したプロジェクトはソブリンAI戦略と深く関連しています。韓国社会と文化に合ったAIを自ら構築するということが、ソブリンAIの核心だからです。これは他の国においても同様です。このようなプロジェクトは今後、AIが世界各国の文化的コンテクストをより精緻に理解し、反映するための重要な土台となるでしょう。これは単なる技術開発を超え、世界各国が自ら文化的な主権を守る方法でもあるのです。
🖼️画像キャプションテスト (Image Captioning Test)
では、実際にデータはどのように作成されたのでしょうか?ここからは、ChatGPTとGeminiを活用した画像キャプションの事例を通じて、韓国の映像理解データ構築プロジェクトをご紹介いたします。
ここに、美しい秋の風景を捉えた写真があります。典型的な韓国の秋の風景を写した写真で、画像サイトで見つけたものです。これを、韓国の放送局が制作した番組からキャプチャしたと仮定してみましょう。
<秋の風景(オリンピック公園)、出典:Unsplash>
画像キャプショニングとは、上の画像を説明する5つの文章を作成する作業です。私たちはまず韓国語で文章を生成し、その後に英語で作成するというプロセスを踏みました。ChatGPTとGeminiに対し、この写真を見せ、場所に関する情報(ソウルのオリンピック公園)を提供した上で、韓国語で5つの文章を生成するよう指示しました。そして、最終的に英語に翻訳するように依頼しました。
その結果、両モデルは以下のような文章を生成しました。
<ChatGPTとGeminiが生成した英語の画像キャプション比較>
両モデル(ChatGPTとGemini)は、韓国語で生成された文章を基に、非常に滑らかな英語の文章を作成してくれました。
第2弾では、ChatGPTとGeminiを用いたテスト事例を通じて、私たちが実行した文化特有の映像理解データ構築プロジェクトをソブリンAIの観点からご紹介しました。
次の第3弾では、このプロジェクトにおける最も重要なプロセスの一つである、ヒューマン・ラベリングと検証(校正)テスト事例へと話を展開し、データ主権の確保における人間の役割について深く掘り下げていきたいと思います。ご期待ください!