Product
概要​映像​グラフィック​ドキュメント​
Enterprise
Story
レター/テクノート​ニュース/公知​
Pricing
Ja
한국어English日本語日本語
利用ガイド
LETR WORKSスタート
한국어English日本語
한국어English日本語
NERの現在と未来:01.コンセプトから多様なアプローチまで
2024-07-17

‍

この記事は、2023年現在の最新動向に合わせて更新していますので、以下の記事を参考にしてください。

NER の現在と未来 Ver.2: 韓国の NER データセットのまとめ

‍

‍

‍NER とは何ですか?

NER (名前付きエンティティ認識)文字通り 名前付きエンティティ (名前の付いたオブジェクト)를 認識 (認識)やるということは、 オブジェクト名認識って呼ばれてる

‍

NER の定義は 韓国情報通信協会提供元 情報通信技術用語集によると:

あらかじめ定義された人物、会社、場所、時間、単位などに対応する単語(オブジェクト名)を文書から認識し、抽出して分類する技法。抽出されたオブジェクト名は、人物 (人)、地名 (場所)、組織名 (組織)、時間 (時間) で分類されます。オブジェクト名認識 (NER) は情報の抽出を目的として始まり、自然言語処理や情報検索などに使用されます。

※ 例:チョルス [人名] は、10時 [時刻] にソウル駅 [名前] でヨンヒ [人名] に会うと約束した。

‍

一方、論文「名前付きエンティティ認識のためのディープラーニングに関する調査」[1] では、次のように説明されています。

「NERとは、テキスト内の名前付きエンティティをエンティティのカテゴリに分類および分類するプロセスです。」

つまり、実際には、「文字列を入力として受け取り、各単語に対応するタグを吐き出すマルチクラス分類タスク」と表現できます。

 

それから NE (名前付きエンティティ、以下 NE)それはなんですか?

NE は、文字列内の機関名や人物、場所だけでなく、通貨や時間、パーセンテージの表現も含めた意味として登場しました。それ以来、研究者によって若干異なりますが、人名や地名などの固有名詞がこれに対応することが一般的に認識されてきました。

‍

さらに、上記で定義した NE には 2 つのタイプがあります。

まず、 共通オブジェクト名 (汎用 NE)人や場所などの名前がこのカテゴリに該当します。

第二に、 ドメイン固有のエンティティ名 (ドメイン固有のNE)これは専門分野の用語です。

‍

例として 小枝農場では、最初のタイプは学習した NER アルゴリズムによって処理され、2 番目のタイプは定義済みの用語集 (翻訳メモリ、翻訳メモリ*) で処理され、翻訳品質が向上します。

‍

* 翻訳メモリ (TM)、 https://ko.wikipedia.org/wiki/번역_메모리

‍

‍

NER が必要な理由

NER は自然言語処理 (NLP) 全体で重要な役割を果たします。自然言語処理を用いた情報の検索や要約、質問への回答、知識ベースの構築など、さまざまな分野で使用されており [2]、特に機械翻訳 (機械翻訳、以下 MT) の品質を高め、カスタマイズした翻訳をユーザーに提供するのに役立ちます。

 

たとえば、「TWIGFARM」を文字通りに解釈すると、「小枝農場」ではなく「木の枝農場」と解釈されます。しかし、これは翻訳エラーを引き起こすだけでなく、ユーザーにとって不快な体験をもたらす可能性もあります。一方、TWIGFARMが会社名として正しく認識されれば、翻訳品質だけでなくユーザーエクスペリエンスも向上させることができます。

 

MTの導入当初から、NERプロセスを通じてMTの品質を向上させることができることが知られていました。BabychとHartleyによると、「オブジェクト名が一般名詞と誤解されると、文自体が理解しにくくなり、修正に多額の費用がかかる」[3] [3] うがわらはまた、ニューラルネットワークベースの機械翻訳(NMT)でNERを使用すると結果の翻訳品質が向上することを目に見えて実証している [4]。

‍

‍

NER パフォーマンス評価インデックス

NER は、精度 (精度)、リコール (リコール) *、および f1-score* を使用してパフォーマンスを評価し、文単位ではなくトークン (トークン) * 単位で評価します。

‍

たとえば、「私はTWIGFARMで働いています。」という文がある場合、その文を最初にトークン化*して、「TWIGFARM」という特定の単語だけがオブジェクト名であることを示します。(トークン化する方法はいくつかあり、使用するツールによって結果が異なる場合があります)。

例文は「私」、「仕事」、「at」、「TWIGFARM」、「.」の5つの要素に分かれており、それぞれ評価されます。

‍

*精度とリコール、 https://en.wikipedia.org/wiki/Precision_and_recall
* F1-スコア、 https://en.wikipedia.org/wiki/F-score
* トークン (トークン)、 https://terms.naver.com/entry.naver?docId=857716&cid=42346&categoryId=42346
* トークン化、 https://en.wikipedia.org/wiki/Lexical_analysis#Tokenization

‍

‍

NER タグシステムおよびラベル

‍

NERは文をトークン単位に分割し、これらのトークンをそれぞれタグ (タグ付け*) して、オブジェクト名かどうかを区別します。一方、イギリス文化における発言の例として、1つのトークンではなく、複数のトークンを組み合わせて1つのオブジェクト名を完成させるケースもあります。たとえば、「マイケル・ジョーダン」は 2 つのオブジェクト名ではなく、1 つのオブジェクト名です。

 

そして、これらの複数のトークンを単一のオブジェクト名にグループ化することが導入されました。 タグ付けシステムこれです。タグ付けシステムにはBIOSシステムとBIESOシステムの2種類があり、主にBIOシステムが実際に使われています。

まず、BIO システムは、オブジェクト名が始まる場合は「B-(begin)」、トークンがオブジェクト名の中央にある場合は「I-(inside)」、トークンがオブジェクト名でない場合は「O (outside)」を追加します。

一方、BIESO システムは、オブジェクト名の先頭に「B-(begin)」、オブジェクト名の途中には「I-(inside)」、オブジェクト名の末尾には「E-(end)」を追加します。また、トークンがオブジェクト名の場合は'S-(singleton) 'が追加され、トークンがオブジェクト名でない場合は 'O (outside) 'が追加されます。

‍

BIOシステムに従ってタグ付けされた文の例

‍

BIESOシステムに従ってタグ付けされた文の例

‍

前述のように、「O」を除くタグ、つまり「B-」、「I-」、「E-」、「S-」の後には、各トークンがどのようなオブジェクト名であるかを認識できるラベルが続きます。たとえば、人には「PER」が、組織には「ORG」が追加されます。ただし、ラベルの種類や名前には決まった基準はなく、研究者はプロジェクトの性質に応じてランダムにラベルを選択します。

‍

*タグ付け (タグ付け)、 https://terms.naver.com/entry.naver?docId=865370&cid=42346&categoryId=42346

‍

‍

NER へのさまざまなアプローチとディープラーニングの紹介

ディープラーニング (Deep Learning) *が導入される前から、NER の課題を解決するためのさまざまな試みがなされてきました。現在は主にディープラーニングモデルが使用されていますが、従来のアプローチを組み合わせたモデルも多くありました。ディープラーニングが登場する前は、代表的なアプローチとして以下の3つがありました。

‍

(1) ルールベースのアプローチ(ルールベースのアプローチ)

: ドメイン固有 (ドメイン固有) ディクショナリ (gazetteer*) を適用するか、パターンを適用してアクセスします。
: 高精度に比べて再現率が低い。特に、別のドメインに行っても機能しません。

‍

(2) 教師なし学習*アプローチ (教師なし学習)

:コンテキストの類似性に基づいてクラスタリング(クラスタリング)*によって学習します。

:また、地名辞典(地名辞典)を作成するための教師なしシステム(教師なしシステム)を提案しました。教師あり学習*と比較すると、この方法は用語集、コーパス (コーパス) * 統計情報 (idf または contextvector)、または浅いレベルの構文 (構文) * 知識に頼ります。

‍

(3) 変数ベースの教師付き学習アプローチ(特徴ベースの教師付き学習アプローチ)

:教師付き学習に移ると、NERはマルチクラス分類(マルチクラス分類)*またはシーケンスラベリングタスク(シーケンスラベリングタスク)*エリアに移動します。

: 機能ベース (機能ベース) なので、その機能がどうなるかは非常に重要な課題です。

: 隠れマルコフモデル (HMM) *, デシジョンツリー*, 最大エントロピーモデル*, サポートベクターマシン (SVM) *, 条件付きランダムフィールド (CRF) *

: SVM モデルでは、エンティティラベルの予測時に隣接する単語は考慮されませんが、CRF は考慮されます。

‍

しかし、最近では、NER のほとんどのソリューションはディープラーニングを使用して解決されており、これにはより多くの利点があります。個別の変数処理 (特徴工学*) は不要で、線形モデルと比較してより複雑で高度な特性を学習することもできます。特にディープラーニングには、データを挿入して一連のプロセスを経なくてもすぐに結果が得られるエンドツーエンド (エンドツーエンド) モデルを実装できるというメリットがあります。

‍

* ディープラーニング (ディープラーニング) https://ko.wikipedia.org/wiki/딥_러닝
* 地名集、 https://en.dict.naver.com/#/entry/enko/dd365c3160f64057bd0a10475bb2ea43
* 教師なし学習、 https://ko.wikipedia.org/wiki/비지도_학습
* クラスタリング (クラスタリング) https://terms.naver.com/entry.naver?docId=817915&cid=50376&categoryId=50376
* 教師付き学習(教師付き学習), https://ko.wikipedia.org/wiki/지도_학습
* コーパス (コーパス) https://terms.naver.com/entry.naver?docId=2070828&cid=50376&categoryId=50376
* 構文 (伝統的), https://ko.dict.naver.com/#/entry/koko/92d960065ec64bb6aeb267b08683b058
*マルチクラス分類(マルチクラス分類)、 https://en.wikipedia.org/wiki/Multiclass_classification
* シーケンスラベリングタスク (シーケンスラベリングタスク), https://en.wikipedia.org/wiki/Sequence_labeling
* 隠されたマルコフモデル (HMM)、 https://ko.wikipedia.org/wiki/은닉_마르코프_모형
* ディシジョンツリー、 https://ko.wikipedia.org/wiki/결정_트리
* 最大エントロピーモデル、 https://ko.wikipedia.org/wiki/최대_엔트로피_마르코프_모형
* サポートベクターマシン (SVM)、 https://ko.wikipedia.org/wiki/서포트_벡터_머신
* 条件付きランダムフィールド (CRF) https://ko.wikipedia.org/wiki/조건부_무작위장
* 可変処理 (フィーチャーエンジニアリング)、 https://en.wikipedia.org/wiki/Feature_engineering

‍

‍

今まで 'NERの現在と未来「シリーズの最初のトピック」コンセプトから多様なアプローチまで「そうだった。このシリーズの2つ目のトピックは、」モデル構造とデータセットステータス'、3 番目のトピック'今後の開発方向と目標まで続きます。」

‍

‍

‍

参考文献

[1] 名前付きエンティティ認識のためのディープラーニングに関する調査、ジン・リー、アイシン・スン、ジャンレイ・ハン、チェンリャン・リー、2020年3月18日。
[2] https://arxiv.org/pdf/1812.09449.pdf (ジン・リー他 2020年1月)
[3] https://www.aclweb.org/anthology/W03-2201/ (ベイビーチ&ハートレー, 2003, 1)
[4] https://www.aclweb.org/anthology/C18-1274/ (宇川ら2018年、3248)

‍

‍

NERの現在と未来

  • NERの現在と未来:01.コンセプトから多様なアプローチまで
  • NERの現在と未来:02.モデル構造とデータセットの状態
  • NERの現在と未来:03.今後の開発の方向性と目標
  • ‍

    ‍

    🚀데이터 인텔리전스 플랫폼 '레터웍스' 지금 바로 경험해보세요.

    • 노트의 내용을 실제로 이용해 보세요! (한 달 무료 이용 가능 🎉)
    • AI 기술이 어떻게 적용되는지 궁금한가요? (POC 샘플 신청하기 💌)

    ‍

    ‍

    ‍

    ‍

    ‍

    全リストを見る

    次のノートを見る

    WORKS note
    動画ローカライズにおける VTT ソリューションの活用
    2025-06-27
    LETR note
    Google Gemini と LETR WORKS ペルソナ・チャットボットの比較
    2025-06-26
    LETR note
    コンテンツ制作におけるパラダイムイノベーション-AI吹き替え技術の現在と未来
    2024-12-12
    利用ガイド
    お問い合わせ​
    Twigfarm Co.,Ltd.
    事業者登録番号 : 556-81-00254  |  通信販売番号 : 2021-ソウル特別市鍾路-1929
    代表 : ペク・ソンホ  |  個人情報管理責任者 : パク・ヒョンテク
    ソウル本社 : (03187) ソウル特別市鍾路区6(瑞麟洞)6階
    光州支社 : (61472 )光州広域市東区錦南路 193-22
    シンガポールアジア事務所 : (048581) 16 RAFFLES QUAY #33-07 HONG LEONG BUILDING SINGAPORE
    Family site
    TwigfarmLETR LABSheybunny
    利用約款
    |
    プライバシー規約
    ⓒ 2024 LETR WORKS. All rights reserved.