Product
概要​映像​グラフィック​ドキュメント​
Enterprise
Story
レター/テクノート​ニュース/公知​
Pricing
Ja
한국어English日本語日本語
利用ガイド
LETR WORKSスタート
한국어English日本語
한국어English日本語
韓国語以前の言語モデルを探る (2)
2024-07-17

‍

この記事は、前回の記事「韓国語プレ韓国語モデル (韓国語モデル) (1)」からの続きです。最初にチェックしてからこのコンテンツを見ることをお勧めします。

韓国語以前の韓国語モデルを見る (1) 見に行く

‍

海外と同様に、大量のコーパスを通じて事前に学習したTransformerをもとに韓国語でモデルを勉強する例はたくさんあります。コバート、コルバート、ハンバート、コエレクトラ、コGPT、ハイパークロバなど、さまざまなモデルが発表されています。この記事では、最初にリリースされた主なモデルと機能を時系列で簡単にまとめ、次にそれらをエンコーダー(エンコーダー)、デコーダー(デコーダー)、エンコーダー(デコーダー)、エンコーダーデコーダー(Encoder-DecoderModel、seq2seq)シリーズに分けて整理します。

Three main types of PLM
PLM には主に 3 つのタイプがあります。 イメージソース

‍

‍

韓国語モデルクロニクル

‍

2019

‍

コルバート(トランスフォーマーの韓国語双方向エンコーダー表現)

これは、韓国電子通信研究院(ETRI)が公開した最初の韓国語事前学習モデルです。韓国のニュースや百科事典から抽出された23 GBのデータで学習させたモデルで、パラメーターサイズは1億Mであることが知られています。形態素とワードピースのトークナイザーが使用され、語彙 (語彙) のサイズは30,349 (形態素) と30,797 (ワードピース) でした。クロスワードである韓国語の特徴を反映していたため、BERTよりも優れた性能を示したと発表されました。

‍

ETRIが開発したコバートとグーグルのバート言語モデルアルゴリズムを比較すると、 イメージソース

‍

参考文献

‍https://arxiv.org/pdf/1810.04805.pdf

https://medium.com/towards-data-science/pre-trained-language-models-simplified-b8ec80c62217

https://wikidocs.net/166826

https://itec.etri.re.kr/itec/sub02/sub02_01_1.do?t_id=1110-2020-00231&nowPage=1&nowBlock=0&searchDate1=&searchDate2=&searchCenter=&m_code=&item=&searchKey=b_total&searchWord=KorBERT

https://www.etnews.com/20190611000321

‍

‍

コバート(トランスフォーマーの韓国語双方向エンコーダー表現)

SKTが公開しているウィキペディアやニュースなどから集めた5000万文から学んだモデルです。韓国語における不規則な言語変化の特徴を反映させるため、データに基づくトークン化 (SentencePieceトークナイザー) の手法を適用し、語彙サイズは8002、モデルのパラメーターサイズは92Mでした。

‍

参考文献

https://sktelecom.github.io/project/kobert/

https://github.com/SKTBrain/KoBERT

‍

‍

2020

‍

ハンバート(トランスフォーマーのハングル双方向エンコーダー表現)

このモデルは、2Block AIが公開した70GBの一般文書と特許文書でトレーニングされました。自社開発のMoranトークナイザーを使用したことが知られており、語彙サイズは54,000、モデルパラメータサイズは128Mです。

 

参考文献 

https://twoblockai.files.wordpress.com/2020/04/hanbert-ed8ca8ed82a4eca780-ec868ceab09cec849c.pdf

https://www.stechstar.com/user/zbxe/study_SQL/72557

https://github.com/monologg/HanBert-Transformers

‍

‍

KogPt(韓国ジェネレーティブ・プレジェネレーティブ・トランスフォーマー2)

これはSKTが発表したオープンソースベースの韓国語学習型GPT2モデルです。GPT2と同様にトランスフォーマー・デコーダー構造になっていて、学習には次のトークン予測を使います。韓国語版ウィキペディア、ニュース、ナムウィキ、ネイバーの映画レビューなどのさまざまなデータから抽出された1億5200万文で学習したと言われており、トークナイザーはCBPE(文字バイトペアエンコーディング)を使用し、会話でよく使われる絵文字や絵文字を追加して認識能力を向上させたと言われています。語彙サイズは51,200個、ベースモデルサイズは1億2500万個のパラメータです。

 

参考文献 

https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

https://sktelecom.github.io/project/kogpt2/

https://github.com/SKT-AI/KoGPT2

‍

‍

コバート(韓国の双方向変圧器と自動回帰変圧器)

これは、SKTが既存のKobartとKogPT2に続いてリリースしたBARTモデルの3番目の韓国語バージョンです。KobArtはBARTと同様のエンコーダー-デコーダー構造で、事前学習にはノイズ除去オートエンコーダー方式を採用しました。韓国語版ウィキペディア、ニュース、本、みんなの星占い、青瓦台全国請願など、以前よりもさらに多様な0.27Bのデータを使って学びました。

‍

参考文献 

https://arxiv.org/pdf/1910.13461.pdf

https://github.com/SKT-AI/KoBART

https://www.ajunews.com/view/20201210114639936

‍

‍

2021

‍

コリアアルバート(韓国ライトバート)

サムスンSDSがリリースしたモデルで、ALBERTのように仮面言語モデルと文順序予測法が事前学習に適用されました。韓国語版ウィキペディア、ナムウィキ、ニュース、本のあらすじなど約43ギガバイト (GB) のデータ、32,000語サイズの語彙を学び、1200万のベースモデルと1800万の大型モデルがリリースされました。

‍

参考文献 

https://www.samsungsds.com/kr/insights/techtoolkit_2021_korealbert.html

https://arxiv.org/pdf/2101.11363.pdf

https://arxiv.org/pdf/1909.11942.pdf

https://www.inews24.com/view/1316425

https://www.itbiznews.com/news/articleView.html?idxno=65720

https://www.itbiznews.com/news/articleView.html?idxno=66222

‍

‍

キー5

これは、韓国電子技術研究院(KETI)がリリースしたテキストからテキストへの転送トランスフォーマー(T5)をベースにしたモデルの韓国語版と英語版です。93 GB の韓国語コーパスと英語コーパスを使った T5 モデルと同様のマスクフィル方式で事前トレーニングされたことが知られています。前処理にはセンテンスピース・トークナイザーが使用され、語彙数は64,000語でした。その結果、韓国語と英語のコーパスの合計92.92GBを、モデルのサイズや使用目的に応じてさまざまな方法で選択して使用できるように、さまざまなサイズのモデルをリリースしました。

‍

参考文献‍

https://arxiv.org/abs/1910.10683

https://huggingface.co/tasks/fill-mask

https://github.com/google/sentencepiece

https://koreascience.kr/article/CFKO202130060717834.pdf

https://zdnet.co.kr/view/?no=20210427130809

‍

‍

コグプト・トリニティ

これは、SKTがリリースしたモデルを使用して社内で構築された1.2BのKOデータデータセットで学習されたことが知られています。モデルのサイズはKogPT2と比較して大幅に増加した1.2Bで、語彙サイズは51,200で、次のトークン予測で事前にトレーニングされています。

‍

参考文献

https://huggingface.co/skt/ko-gpt-trinity-1.2B-v0.5

‍

‍

ハイパークローバ

ネイバーが公開している大規模モデルを用いて、ニュース、カフェ、ブログ、ナレッジイン、ウェブ文書、コメントなどのNaverを通じて収集した文書や、みんなのコーパスや韓国語版ウィキペディアなどのさまざまな文書から抽出された膨大な量のデータを学習しました。トレーニングに使用されるデータは561.8Bのトークンで構成されており、1.3B、6.9B、13.0B、39.0B、82.0Bなど、さまざまなサイズのモデルがあります。

‍

参考文献

https://www.etnews.com/20210525000052

https://tv.naver.com/v/20349558

https://arxiv.org/abs/2109.04650

‍

‍

クルーバート

KLUE-BERTは、ベンチマークデータであるKLUEのベースラインとして使用されるモデルで、みんなのコーパス、CC-100-KOR、Namu Wiki、ニュース、請願書などの文書から抽出された63 GBのデータで学習されました。形態素ベースのサブワード・トークナイザーが使用され、語彙サイズは32,000、モデル・サイズは111Mです。

‍

参考文献

https://huggingface.co/klue/bert-base?text=%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98+%EC%88%98%EB%8F%84%EB%8A%94+%5BMASK%5D+%EC%9E%85%EB%8B%88%EB%8B%A4。

https://github.com/KLUE-benchmark/KLUE

https://cpm0722.github.io/paper-review/an-empirical-study-of-tokenization-strategies-for-various-korean-nlp-tasks

‍

‍

KoGPT

カカオブレインがリリースし、GPT3をベンチマークした韓国モデルです。200Bトークンの韓国語データから学習した6Bの超大型モデルで、語彙サイズは64,512です。

‍

参考文献

https://github.com/kakaobrain/kogpt

https://huggingface.co/kakaobrain/kogpt

https://www.kakaocorp.com/page/detail/9600

http://www.aitimes.com/news/articleView.html?idxno=141575

‍

‍

セット 5

T5に続き、ETRIから発表されたもので、T5のマスクフィルとGPT3のネクストトークン予測を同時に事前学習したモデルです。Wikipedia、新聞記事、放送台本、映画・テレビシリーズの台本などから抽出した136 GBのデータを使って学習しましたが、これはSentencePieceのトークナイザーに基づくと45,100語サイズで、モデルのサイズは60Mです。

 

参考文献

http://exobrain.kr/pages/ko/result/assignment.jsp #

https://www.etnews.com/20211207000231

‍

‍

エクサワン(すべての人のためのエキスパートAI)

LG AI Researchが公開しているテキスト、音声、画像をもとに学習したマルチモーダル(マルチモーダル)モデルです。6000億のコーパスと言語・画像を組み合わせて2億5000万枚以上の高解像度画像を学習し、約3000億個のパラメータを持つなど、韓国最大規模です。言語を画像に、画像を言語に変換するなど、人間のコミュニケーションに関するさまざまな情報を学習して扱うマルチモダリティ(マルチモダリティ)能力を備えています。

‍

LG AI 연구원 (EXAONE Multi-modal Model 개괄)
EXAONE マルチモーダルモデル、 イメージソース

‍

参考文献

https://www.lgresearch.ai/blog/view?seq=183

https://www.aitimes.kr/news/articleView.html?idxno=23585

https://arxiv.org/pdf/2111.11133.pdf

‍

‍

3種類の韓国語モデル

‍

エンコーダ中心モデル:BERT シリーズ

Encoder-CentricModels: BERT 계열

‍

デコーダー中心モデル:GPT シリーズ

‍

エンコーダ/デコーダモデル:seq2seq ファミリー

Encoder-Decoder Models: Seq2seq 계열

‍

一緒に見るのに良いコンテンツ

  • 韓国語以前の韓国語モデルを表示 (1)
  • 言語の天才になったAI、多言語 (ポリグロット) モデル (1)
  • 言語の天才になったAI、多言語 (ポリグロット) モデル (2)
  • オープンソース言語モデル BLOOM は AI 民主化の花になることができるのか?
  • なぜ人工知能は韓国語をより難しくしているのですか?
  • ‍

    ‍

    🚀데이터 인텔리전스 플랫폼 '레터웍스' 지금 바로 경험해보세요.

    • 노트의 내용을 실제로 이용해 보세요! (한 달 무료 이용 가능 🎉)
    • AI 기술이 어떻게 적용되는지 궁금한가요? (POC 샘플 신청하기 💌)

    ‍

    ‍

    ‍

    全リストを見る

    次のノートを見る

    LETR note
    コンテンツ制作におけるパラダイムイノベーション-AI吹き替え技術の現在と未来
    2024-12-12
    WORKS note
    NERと自然言語処理を利用したレターワークスのAIエージェント
    2024-12-11
    WORKS note
    マルチモーダルのコンセプトとアプリケーション、LETR WORKS AI テクノロジー
    2024-12-02
    利用ガイド
    お問い合わせ​
    Twigfarm Co.,Ltd.
    事業者登録番号 : 556-81-00254  |  通信販売番号 : 2021-ソウル特別市鍾路-1929
    代表 : ペク・ソンホ  |  個人情報管理責任者 : パク・ヒョンテク
    ソウル本社 : (03187) ソウル特別市鍾路区6(瑞麟洞)6階
    光州支社 : (61472 )光州広域市東区錦南路 193-22
    シンガポールアジア事務所 : (048581) 16 RAFFLES QUAY #33-07 HONG LEONG BUILDING SINGAPORE
    Family site
    TwigfarmLETR LABSheybunny
    利用約款
    |
    プライバシー規約
    ⓒ 2024 LETR WORKS. All rights reserved.