Product
概要​映像​グラフィック​ドキュメント​
Enterprise
Story
レター/テクノート​ニュース/公知​
Pricing
Ja
한국어English日本語日本語
利用ガイド
LETR WORKSスタート
한국어English日本語
한국어English日本語
NERの現在と未来:02.モデル構造とデータセットの状態
2024-07-17

‍

この記事は、2023年現在の最新動向に合わせて更新していますので、以下の記事を参考にしてください。

NER の現在と未来 Ver.2: 韓国の NER データセットのまとめ

‍

‍<NER의 현재와 미래> シリーズ第2弾となるこのコンテンツは、NER モデル構造とデータセット '最初のトピックに関するコンテンツを用意しました 'コンセプトから多様なアプローチまで'から続きますので、まだチェックしていない方は先に読むことをおすすめします。

* NERの現在と未来:01.コンセプトから多様なアプローチまで 見に行く

‍

‍

‍NER のモデル構造

論文「名前付きエンティティ認識のためのディープラーニングに関する調査」によると、NERモデルの構造は下図のように3段階のプロセスに分けることができます。

ㄹ
* テーブルソース: https://arxiv.org/pdf/1812.09449.pdf

‍

(1) 入力用の分散表現*

入力データをベクトルなどで表現するレイヤーとして、あらかじめ定義された単語埋め込み、文字レベルの埋め込み、POS* タグ、地名辞典が使われます。

(2) コンテキストエンコーダー

CNN*、RNN*、言語モデル*、Transformer*などのモデルは、コンテキスト情報をエンコードするためのレイヤーとして使用されます。

(3) タグデコーダー

Softmax、CRF*、RNN、ポイントネットワークなどのモデルは、タグ情報をデコードするためのレイヤーとして使用されます。

 

ただし、すべてのモデルが上記の構造に厳密に従うわけではありません。特に、ディープラーニング側のモデルは端から端まで動作するため、手順が明確に分かれていない場合があります。ただし、従来のアプローチを含めると、一般的に上記の3つのステップを検討できます。

‍

* 入力の分散表現:入力の分散表現
* POS(品詞、品詞)、 https://en.wikipedia.org/wiki/Part_of_speech
* CNN(畳み込みニューラルネットワーク)、 https://en.wikipedia.org/wiki/Convolutional_neural_network
* RNN(リカレントニューラルネットワーク)、 https://en.wikipedia.org/wiki/Recurrent_neural_network
* 言語モデル、 https://en.wikipedia.org/wiki/Language_model
* トランスフォーマー、 https://en.wikipedia.org/wiki/Transformer_(machine_learning_model)
* CRF (条件付きランダムフィールド)、 https://en.wikipedia.org/wiki/Conditional_random_field
‍

‍

NER関連ライブラリの現状と性能評価

‍

現在、韓国語のみに特化した公式のNERライブラリを見つけることは難しく、多言語で学習したほとんどのモデルで韓国語を見つけることができます。各ライブラリには次のような特徴があります。

‍

その後、Kaggle*が配布したデータセット*を使用して評価が行われました。データセット内のクラス数とライブラリ内のクラス数はそれぞれ異なるため、各クラスをデータセットのクラスに一致させる作業が必要になり、この過程で参照データセットよりも多くのクラスを分類できるライブラリの方が精度が低いことが確認されました。そこで、NERの性能を判断する基準として、一般的に使われているPrecisionとそれを用いたF1スコアを除外し、再生率と所要時間のみに基づいてライブラリの性能を決定しました。結果は以下の通りです。

Stanford NER Taggerは、かかった時間の中でパフォーマンスが大幅に低く(1,000文に基づく)、フレアとポリグロットは想起の点でパフォーマンスが大幅に低かったことが確認できます。

‍

* カグル、 https://en.wikipedia.org/wiki/Kaggle
* https://www.kaggle.com/abhinavwalia95/entity-annotated-corpus
* NLTK(自然言語ツールキット)、 https://en.wikipedia.org/wiki/Natural_Language_Toolkit
* スタンフォード、 https://nlp.stanford.edu/software/CRF-NER.html#Models
* スペイシー、 https://en.wikipedia.org/wiki/SpaCy
* フレア、 https://github.com/flairNLP/flair
* ハグフェイス、 https://huggingface.co/datasets
* ポリグロット、 https://polyglot.readthedocs.io/en/latest/ #
* デパブロフ、 https://github.com/deepmipt/DeepPavlov

‍

‍

代表的な英語 NER データセット

‍

(1) Conll 2003 (Sang and Meulder、2003) *

: 著作権ポリシー-DUA

:英語のニュース記事1,393件(主にスポーツ関連)

: 4 種類の注釈付き* エンティティ — {LOC (場所)、ORG (組織)、PER (個人)、MISC (その他)}

‍

* Conll 2003、 https://www.clips.uantwerpen.be/conll2003/ner/
* 注釈付き:<책 등이> 注釈付き [note]

‍

(2) OntoNotes 5.0 (ヴァイシェデルら、2013) *

: 著作権 — LDC

: データの種類と数は以下の通りです。

‍

* ノート5.0以降、 https://catalog.ldc.upenn.edu/LDC2013T19
* ピボット:旧約聖書と新約聖書のテキスト(旧約聖書と新約聖書のテキスト)
‍* テーブルソース: https://catalog.ldc.upenn.edu/LDC2013T19

‍

: 18 種類の注釈付きエンティティ

* テーブルソース: https://catalog.ldc.upenn.edu/docs/LDC2013T19/OntoNotes-Release-5.0.pdf

‍

(3) MUC-6 (グリッシュマンとスンハイム、1996)

: 著作権ポリシー — LDC

: ウォールストリートジャーナルから抜粋したニュース記事

: 3 種類のアノテーション付きエンティティ — {PER、LOC、ORG}

‍

* 多くの 6、 https://cs.nyu.edu/~grishman/muc6.html

 

(4) WNUT 17: エマージング・エンティティとレアエンティティの認識 (Derczynski et al., 2016)

: 著作権ポリシー — CC-BY 4.0

: ソーシャルメディア (YouTube コメント、スタック・オーバーフロー・レスポンス Twitter テキスト、Reddit コメント)

: 6種類の注釈付きエンティティ-(個人、場所、グループ、クリエイティブワード、企業、製品)

‍

* ナツメット 17, https://noisy-text.github.io/2017/emerging-rare-entities.html

‍

‍

代表的な韓国の NER データセット

 

韓国のNERデータの数は非常に少ないです。現在、韓国のNERデータセットは全部で3つ公開されており、すべての商用利用が制限されています。

 

(1) 国立韓国語研究所 NER データセット

:全部で3,555センテンス

:BIO タグシステムの使用

:5 種類の注釈付きエンティティ — {場所 (LC)、日付 (DT)、組織 (OG)、時間 (TI)、個人 (PS)}

 

* 国立韓国語学院のみんなの言葉、 https://corpus.korean.go.kr

 

(2) 韓国海事大学自然言語処理研究所 NER データセット

:全部で23,964センテンス

:BIO タグシステムの使用

:10 種類の注釈付きエンティティ — {個人 (PER)、組織 (ORG)、地名 (LOC)、その他 (POH)、日付 (DAT)、時間 (TIM)、期間 (DUR)、通貨 (MNY)、比率 (PNT)、その他の定量的表現 (NOH)}

 

* 韓国海事大学GitHubの自然言語処理研究室 https://github.com/kmounlp

 

(3) ネイバー NLP チャレンジ 2018

:合計 82, 393 センテンス

:BIO タグシステムの使用

: 14種類の注釈エンティティ — {個人 (PER), 研究分野 (FLD), アーティファクト (AFW), 組織 (ORG), ロケーション (LOC), 文明と文化 (CVL), 日付 (DAT), 時間 (TIM), 番号 (NUM), インシデントとイベント (EVT), 動物 (ANM), 植物 (PLT), 金属/岩石/化学薬品 (MAT)), 医療用語/IT関連用語 (TRM)}

 

* ネイバー NLP チャレンジ GitHub https://github.com/naver/nlp-challenge

‍

‍

今まで 'NERの現在と未来「シリーズ第2弾について」モデル構造とデータセットステータス「そうだった。このシリーズの3番目のトピックは、もうすぐです。今後の開発方向と目標につながっていく」.

‍

‍

‍

NERの現在と未来

  • NERの現在と未来:01.コンセプトから多様なアプローチまで
  • NERの現在と未来:02.モデル構造とデータセットの状態
  • NERの現在と未来:03.今後の開発の方向性と目標
  • ‍

    ‍

    🚀데이터 인텔리전스 플랫폼 '레터웍스' 지금 바로 경험해보세요.

    • 노트의 내용을 실제로 이용해 보세요! (한 달 무료 이용 가능 🎉)
    • AI 기술이 어떻게 적용되는지 궁금한가요? (POC 샘플 신청하기 💌)

    ‍

    全リストを見る

    次のノートを見る

    LETR note
    コンテンツ制作におけるパラダイムイノベーション-AI吹き替え技術の現在と未来
    2024-12-12
    WORKS note
    NERと自然言語処理を利用したレターワークスのAIエージェント
    2024-12-11
    WORKS note
    マルチモーダルのコンセプトとアプリケーション、LETR WORKS AI テクノロジー
    2024-12-02
    利用ガイド
    お問い合わせ​
    Twigfarm Co.,Ltd.
    事業者登録番号 : 556-81-00254  |  通信販売番号 : 2021-ソウル特別市鍾路-1929
    代表 : ペク・ソンホ  |  個人情報管理責任者 : パク・ヒョンテク
    ソウル本社 : (03187) ソウル特別市鍾路区6(瑞麟洞)6階
    光州支社 : (61472 )光州広域市東区錦南路 193-22
    シンガポールアジア事務所 : (048581) 16 RAFFLES QUAY #33-07 HONG LEONG BUILDING SINGAPORE
    Family site
    TwigfarmLETR LABSheybunny
    利用約款
    |
    プライバシー規約
    ⓒ 2024 LETR WORKS. All rights reserved.