皆さん、こんにちは!
最近では、1つの動画コンテンツを多言語で再制作し、世界中の視聴者に届けることが一般的になってきました。いわゆる「コンテンツのローカライズ」と呼ばれる動きです。
ローカライズの最も基本的な作業は「書き起こし(transcription)」です。動画内の音声をテキストに変換する工程であり、「Video-to-Text」、すなわち VTT とも呼ばれています。
現在、AI技術を活用した多くのVTTサービスが提供されており、私たち LETR WORKS もその一つです。
今回は、LETR WORKS をはじめとしたVTTソリューションの精度について、当社で実施したテスト結果をもとに分析し、VTTの効果的な活用法をご紹介いたします。
📼LETR WORKS を例に見る VTT ソリューションの使い方
まずは LETR WORKS の操作画面を例に、VTTソリューションの基本的な使い方をご紹介します。
LETR WORKS では「新規プロジェクト」機能を使って動画ファイルをアップロードできます。対応フォーマットは、もっとも一般的な MP4 形式です。
<LETR WORKSの動画アップロード画面-1>
<LETR WORKSの動画アップロード画面-2>アップロード後は、ガイドに従って言語などの各種設定を行います。数分待つと、自動で書き起こし結果が生成されます。
<書き起こしのための言語設定画面>今回のテストでは、約4分間の韓国語音声で構成された動画を使用しました。LETR WORKS の他に、グローバル企業が提供する別のVTTソリューション(以下「Aソリューション」と表記)も同様にテストを実施しました。いずれも操作は直感的で使いやすく設計されています。
📊精度テストの結果と考察
テスト動画には 合計621語 の単語が含まれていました。
その中で、LETR WORKS の誤認識は 40件(精度93.6%)、Aソリューションの誤認識は 33件(精度94.7%) という結果でした。
仮に誤りが0件で100%の精度が達成されれば、書き起こし作業の効率は劇的に向上します。確認作業そのものが不要になるからです。
しかし、現時点では100%には至っておらず、人による最終確認作業はまだ必要です。
とはいえ、誤りの傾向を分析することで、興味深いポイントが明らかになりました。
主な誤認識の原因は以下の2つです:
- 単語認識の誤り
- 固有名詞の誤認識
特に、「一般的な単語」については高い精度で認識されており、新語や造語に対する認識率がやや低下していました。また、「人名や団体名」などの固有名詞は、うまく認識されないケースが見受けられました。
こうした課題に対しては、用語集(Term Base)機能 を活用することで精度を向上させることが可能です。
事前に特定の単語や名称を指定しておけば、誤認識を最小限に抑えることができます。この機能は書き起こしだけでなく、翻訳作業においても非常に有効です。
今回のテストを通じて、現時点で約95%という高い精度 が確認されました。
近年のAI技術の急速な進歩により、VTTソリューションの性能も飛躍的に向上していることが実感できました。
🤖LETR WORKS のアプローチと今後
LETR WORKS は、グローバル企業が提供する音声認識APIと連携するよう設計されており、常に最も高性能なモデルを選定して運用しています。また、継続的な精度測定と最適化を通じて、お客様の業務効率向上に貢献できるよう日々取り組んでいます。
最後までお読みいただき、ありがとうございました!