Product
概要​映像​グラフィック​ドキュメント​
Enterprise
Story
レター/テクノート​ニュース/公知​
Pricing
Ja
한국어English日本語日本語
利用ガイド
LETR WORKSスタート
한국어English日本語
한국어English日本語
韓国語以前の韓国語モデルを表示 (1)
2024-07-17

近年、大規模データを用いたディープラーニングベースの自然言語処理研究が活発に行われています。企業、学界を問わず、誰もが飛び込んでいます。GoogleやMetaなどの大手テクノロジー企業や、BigScience(BigScience)などのパブリックコラボレーションプロジェクトは、目覚ましい成果を上げています。

‍

この成果の背景には、豊富なコーパスデータから事前に学習されたトランスフォーマー(Transformer)があります。*設置されています。それ以来、多くのバリアントが登場し、パフォーマンスは急速に向上しました。また、これらの言語モデルのほとんどは、大量のコーパスデータを用いた教師なし学習です。**を使用しているため、データ収集が非常に重要になっています。

‍

しかし、これほど急速に発展してきた言語モデル研究には残念な点があります。特に、この国で生まれ、韓国に住んでいる私たちの視点から見ると。大まかに言って、韓国語モデルの学習には以下の2つの理由から多くの困難がありました。

letr_tech-20220908_1

‍

まず、まず第一に、韓国語の言語的特徴は英語とは大きく異なります。私たちにとって一般的に日本語の方が英語よりも習得しやすいように、英語を学習してきた人工知能は、韓国語よりもスペイン語の方がはるかに簡単に処理できるはずです。これについては以前のコンテンツですでに説明したので、詳細は以下の記事をチェックしてください。

‍-なぜ人工知能は韓国語をより難しくしているのですか?

letr_tech-20220908_2

‍

2つ目の理由は、トレーニングデータの量がモデルのパフォーマンスに直接関係していることです。一般に、韓国語などのリソースの少ない (リソースの少ない) 言語では、パフォーマンスの向上は比較的限定的です。これについては、大規模言語モデルや多言語モデルに関する過去のコンテンツでも見てきたので、そちらもチェックしてみてください。

‍-オープンソース言語モデル BLOOM は AI 民主化の花になることができるのか?

-言語の天才となったAI、多言語 (ポリグロット) モデル (1)

-言語の天才となったAI、多言語 (ポリグロット) モデル (2)

‍

しかし、韓国語の自然言語処理研究のレベルが上がるにつれて、韓国語を中心としたモデルが研究されたり公開されたりするケースは増え続けています。韓国電子通信研究院 (ETRI)、Naver、Kakaoなどの国内有数の機関や企業が、次々と新しいモデルを発表しています。コルベルト、ハイパークローバ、KoGPT、EXAONEなどさまざまなモデルが次々と登場し、現在も研究が続けられています。

‍

そこで、この機会に、これまでに明らかになった韓国語モデルの概要を共有したいと思います。大まかに言うと、エンコーダモデル (BERT)*** シリーズ)、デコーダーモデル (GPT)**** シリーズ)、エンコーダ-デコーダモデル (seq2seq***** それらを3つのモデルグループ(シリーズ)に分けて集めました。

次回の記事では結果を順を追って紹介していきますので、お楽しみに。

‍

‍

‍

* https://en.wikipedia.org/wiki/Transformer_(machine_learning_model)

** https://en.wikipedia.org/wiki/Unsupervised_learning

*** https://en.wikipedia.org/wiki/BERT_(language_model)

**** https://en.wikipedia.org/wiki/OpenAI#GPT

***** https://en.wikipedia.org/wiki/Seq2seq

‍

‍

参考文献

[1] https://arxiv.org/abs/2112.03014

[2] https://aiopen.etri.re.kr/service_dataset.php

[3] https://github.com/SKTBrain/KoBERT

[4] https://github.com/monologg/HanBert-Transformers

[5] https://github.com/SKT-AI/KoGPT2

[6] https://huggingface.co/gogamza/kobart-base-v2

[7] https://arxiv.org/abs/2101.11363

[8] https://koreascience.kr/article/CFKO202130060717834.pdf

[9] https://huggingface.co/skt/ko-gpt-trinity-1.2B-v0.5

[10] https://arxiv.org/abs/2105.09680

[11] https://arxiv.org/abs/2109.04650

[12] https://huggingface.co/kakaobrain/kogpt

[13] https://s-space.snu.ac.kr/handle/10371/175838

‍

‍

一緒に見るのに良いコンテンツ

  • 言語の天才になったAI、多言語 (ポリグロット) モデル (1)
  • 言語の天才になったAI、多言語 (ポリグロット) モデル (2)
  • オープンソース言語モデル BLOOM は AI 民主化の花になることができるのか?
  • なぜ人工知能は韓国語をより難しくしているのですか?
  • ‍

    🚀데이터 인텔리전스 플랫폼 '레터웍스' 지금 바로 경험해보세요.

    • 노트의 내용을 실제로 이용해 보세요! (한 달 무료 이용 가능 🎉)
    • AI 기술이 어떻게 적용되는지 궁금한가요? (POC 샘플 신청하기 💌)

    ‍

    ‍

    ‍

    ‍

    全リストを見る

    次のノートを見る

    LETR note
    コンテンツ制作におけるパラダイムイノベーション-AI吹き替え技術の現在と未来
    2024-12-12
    WORKS note
    NERと自然言語処理を利用したレターワークスのAIエージェント
    2024-12-11
    WORKS note
    マルチモーダルのコンセプトとアプリケーション、LETR WORKS AI テクノロジー
    2024-12-02
    利用ガイド
    お問い合わせ​
    Twigfarm Co.,Ltd.
    事業者登録番号 : 556-81-00254  |  通信販売番号 : 2021-ソウル特別市鍾路-1929
    代表 : ペク・ソンホ  |  個人情報管理責任者 : パク・ヒョンテク
    ソウル本社 : (03187) ソウル特別市鍾路区6(瑞麟洞)6階
    光州支社 : (61472 )光州広域市東区錦南路 193-22
    シンガポールアジア事務所 : (048581) 16 RAFFLES QUAY #33-07 HONG LEONG BUILDING SINGAPORE
    Family site
    TwigfarmLETR LABSheybunny
    利用約款
    |
    プライバシー規約
    ⓒ 2024 LETR WORKS. All rights reserved.