Product
概要​映像​グラフィック​ドキュメント​
Enterprise
Story
レター/テクノート​ニュース/公知​
Pricing
Ja
한국어English日本語日本語
利用ガイド
LETR WORKSスタート
한국어English日本語
한국어English日本語
人工知能翻訳者の指導:01.なぜ死体が必要なのか?
2024-07-17

‍はじめに

人工知能の始まりはかなり昔のことです。先端技術なので最近登場したようですが、ご存知の方もいらっしゃると思いますが、人工知能の研究*も1940年代後半のコンピューターの出現とともに始まったことが知られています。

 

そのため、人工知能の存在はよく知られています。人々はすでにさまざまな形の人工知能を想像しています。画面上では、高度な人工知能が戦争を起こして人間を支配したり、翻訳者を通じて未知の宇宙人と自由にコミュニケーションをとったりします。しかし、人工知能に対する漠然とした想像から生まれる期待や恐れと比較すると、私たちの実際の生活に大きな影響を与えていないことも事実です。

 

しかし、人工知能の存在が間近に迫っていることを感じさせる大きな出来事が起こりました。人間数が最も多い9番目のチームであるイ・セドルは、囲碁の試合でAlphaGoに敗れました。これまで、チェスでは機械が人間を打ち負かしていましたが、囲碁では発生件数がはるかに多いため、人間を超えることは難しいと考えられていました。

‍

ディープラーニング技術は人工知能の限界に対する偏見を打ち破り、AlphaGoを見事に輝かせました。マシン上で大量のデータを学習することで、問題を解決する確率を高めることです。AlphaGoは、長い時間をかけて蓄積されてきた囲碁の掲示板 (チェス) *の学習からスタートし、広範囲にわたる自己学習によってパフォーマンスが大幅に向上しました。

‍

AI 翻訳とコーパス

複雑な戦略的思考を必要とする囲碁では、人工知能が人間を簡単に上回っています。しかし、なぜGoogle翻訳者とPapagoは人間の翻訳者を上回るのではなく、まだ多くの翻訳ミスを犯しているのでしょうか。

 

とにかく、有限数のケースを計算しなければならないGoと比べると、言語の世界ははるかに広いです。言語表現は、時間、地域、さらには人や状況によっても変化します。人間が適切な表現を判断するための基準を作ったとしても、変数が多すぎるため、機械が自分で判断するのは難しいはずです。

 

とりわけ、Goの速報のように、機械学習用のデータが十分ではありません。しかし、専門分野の英語訳で、用語が限られていて、データ量が比較的多いほうがより良い状況にあります。一方で、英語以外の言語や日常生活で使われる口語に関するデータはまだ不足しています。

 

そのため、現在の翻訳者のパフォーマンスを向上させる最も確実な方法は、優れたデータを作成することです。翻訳者学習の教科書となるような質の高いデータがあれば、翻訳者のパフォーマンスは自然と向上します。例えば、韓国語と英語の翻訳者を学習するためのデータは、韓国語と英語から成る一対の文章です。専門用語では、この一対の文をコーパスと呼びます。

 

もちろん、優れたモデルを想定する必要がありますが、機械翻訳者のパフォーマンスを向上させるためには、優れたコーパスを構築することも非常に重要です。そのため、LETRもできる限り高品質なコーパスを確保するために多大な努力をしています。

‍

これで、人工知能翻訳者を学ぶためのコーパスについて私が準備した最初の話は終わりです。

次に、コーパスの生成、つまりコーパスを構築する実際のプロセスについて説明します。

‍

‍

‍

参照
  • 人工知能の歴史 https://ko.wikipedia.org/wiki/인공지능#역사
  • 紀要:囲碁またはオルガンの記録(出典:標準韓国語辞書)
  • コーパスまたはコーパス(コーパス)は、自然言語研究のために特定の目的で抽出された言語のサンプルのセットです。 https://ko.wikipedia.org/wiki/말뭉치
  • ‍

    🚀데이터 인텔리전스 플랫폼 '레터웍스' 지금 바로 경험해보세요.

    • 노트의 내용을 실제로 이용해 보세요! (한 달 무료 이용 가능 🎉)
    • AI 기술이 어떻게 적용되는지 궁금한가요? (POC 샘플 신청하기 💌)

    ‍

    ‍

    ‍

    ‍

    全リストを見る

    次のノートを見る

    WORKS note
    월간 인공지능 3호 거대언어모델(LLM), 영상 번역에 활용하기(1편)
    2025-06-23
    LETR note
    コンテンツ制作におけるパラダイムイノベーション-AI吹き替え技術の現在と未来
    2024-12-12
    WORKS note
    NERと自然言語処理を利用したレターワークスのAIエージェント
    2024-12-11
    利用ガイド
    お問い合わせ​
    Twigfarm Co.,Ltd.
    事業者登録番号 : 556-81-00254  |  通信販売番号 : 2021-ソウル特別市鍾路-1929
    代表 : ペク・ソンホ  |  個人情報管理責任者 : パク・ヒョンテク
    ソウル本社 : (03187) ソウル特別市鍾路区6(瑞麟洞)6階
    光州支社 : (61472 )光州広域市東区錦南路 193-22
    シンガポールアジア事務所 : (048581) 16 RAFFLES QUAY #33-07 HONG LEONG BUILDING SINGAPORE
    Family site
    TwigfarmLETR LABSheybunny
    利用約款
    |
    プライバシー規約
    ⓒ 2024 LETR WORKS. All rights reserved.