Product
개요영상그래픽문서
Enterprise
Story
레터/테크 노트소식/공지
Pricing
Ko
한국어English日本語日本語
이용 가이드
레터웍스 시작 
한국어English日本語
한국어English日本語
한국어 언어모델 (Korean Pre-trained Language Models) 톺아보기 (1)
2022-09-07

최근 대규모 데이터를 이용하는 딥러닝 기반 자연어처리 연구가 활발합니다. 기업, 학계를 막론하고 모두가 뛰어들고 있죠. 구글, 메타 등 빅테크 기업들은 물론 빅사이언스(BigScience) 같은 공개 협업 프로젝트를 비롯해 많은 곳에서 주목할만한 결과들을 보여주고 있습니다.

‍

이런 성과의 배경에는 방대한 말뭉치 데이터를 통해 사전 학습된 트랜스포머(Transformer)*가 자리하고 있습니다. 이를 기점으로 수 많은 변형 모델들이 등장하며 빠르게 성능이 향상되어 왔거든요. 또한 이러한 언어모델 대부분이 대용량 말뭉치 데이터를 통한 비지도 학습**을 사용하기 때문에 데이터 확보가 매우 중요해졌습니다.

‍

그렇지만 이렇게 빠르게 발전한 언어모델 연구에도 아쉬운 점은 있습니다. 특히 이 땅에 태어나, 한국어를 쓰며 살아가는 우리 입장에서 보자면 말이죠. 크게 보면 아래의 두 가지 이유로 인해 한국어 언어모델 연구에는 많은 어려움이 존재해왔습니다.

letr_tech-20220908_1

‍

첫째, 우선 한국어는 언어적 특성이 영어와 많이 다릅니다. 일반적으로 우리에게 영어보다는 일본어가 비교적 배우기 쉬운 것처럼, 영어 기반으로 학습해 온 인공지능도 한국어보다는 스페인어가 훨씬 처리하기 쉬울 수 밖에 없겠죠. 이에 대해서는 이미 지난 콘텐츠를 통해 다룬 적이 있으니 자세한 내용은 아래 글을 참고해주세요.

‍- 인공지능이 한국어를 더 어려워하는 이유?

letr_tech-20220908_2

‍

둘째, 결정적으로 학습데이터의 양이 모델 성능에 직결되기 때문입니다. 일반적으로 한국어 같은 저자원(Low-resource) 언어는 상대적으로 성능 향상에 한계가 있을 수 밖에 없죠. 이에 대해서도 대형 언어모델 및 다국어 모델과 관련한 지난 콘텐츠들을 통해 살펴본 바 있으니 역시 참고해주세요.

‍- 오픈소스 언어모델 BLOOM, AI 민주화의 꽃이 될 수 있을까?

- 언어 천재가 된 AI, 다국어(Polyglot) 모델 (1)

- 언어 천재가 된 AI, 다국어(Polyglot) 모델 (2)

‍

다만 이제는 한국어 자연어처리 연구의 수준이 올라가면서 한국어 중심의 모델을 연구하거나, 발표하는 사례도 계속해서 늘어나고 있습니다. 한국전자통신연구원(ETRI), 네이버, 카카오 등 국내의 선도적인 기관, 기업들이 속속 새로운 모델을 공개하고 있죠. KorBERT, HyperCLOVA, KoGPT, EXAONE 등 다양한 모델들이 속속 등장했고 지금 이 순간에도 계속해서 연구되고 있습니다.

‍

그래서 이번 기회를 통해 지금까지 공개된 한국어 언어모델들을 정리해서 공유해보려 합니다. 크게 Encoder Model(BERT*** 계열), Decoder Model(GPT**** 계열), Encoder-Decoder Model(Seq2seq***** 계열)의 3개 모델 계열로 구분하여 모아봤죠.

그 결과는 이어서 다음 포스팅에서 차근차근 소개해드릴 예정이니 기대해주세요.

‍

‍

‍

* https://en.wikipedia.org/wiki/Transformer_(machine_learning_model)

** https://en.wikipedia.org/wiki/Unsupervised_learning

*** https://en.wikipedia.org/wiki/BERT_(language_model)

**** https://en.wikipedia.org/wiki/OpenAI#GPT

***** https://en.wikipedia.org/wiki/Seq2seq

‍

‍

References

[1] https://arxiv.org/abs/2112.03014

[2] https://aiopen.etri.re.kr/service_dataset.php

[3] https://github.com/SKTBrain/KoBERT

[4] https://github.com/monologg/HanBert-Transformers

[5] https://github.com/SKT-AI/KoGPT2

[6] https://huggingface.co/gogamza/kobart-base-v2

[7] https://arxiv.org/abs/2101.11363

[8] https://koreascience.kr/article/CFKO202130060717834.pdf

[9] https://huggingface.co/skt/ko-gpt-trinity-1.2B-v0.5

[10] https://arxiv.org/abs/2105.09680

[11] https://arxiv.org/abs/2109.04650

[12] https://huggingface.co/kakaobrain/kogpt

[13] https://s-space.snu.ac.kr/handle/10371/175838

‍

‍

함께보면 좋은 콘텐츠

  • 언어 천재가 된 AI, 다국어(Polyglot) 모델 (1)
  • 언어 천재가 된 AI, 다국어(Polyglot) 모델 (2)
  • 오픈소스 언어모델 BLOOM, AI 민주화의 꽃이 될 수 있을까?
  • 인공지능이 한국어를 더 어려워하는 이유?
  • ‍

    🚀데이터 인텔리전스 플랫폼 '레터웍스' 지금 바로 경험해보세요.

    • 노트의 내용을 실제로 이용해 보세요! (한 달 무료 이용 가능 🎉)
    • AI 기술이 어떻게 적용되는지 궁금한가요? (POC 샘플 신청하기 💌)

    ‍

    ‍

    ‍

    ‍

    전체 목록 보기

    다음 노트 살펴보기

    WORKS note
    월간 인공지능 2호 영상 기반 음성-텍스트 변환 솔루션 비교하기(4편_생성 결과물 비교)
    2025-04-28
    WORKS note
    월간 인공지능 2호 영상 기반 음성-텍스트 변환 솔루션 비교하기(3편_생성 결과물 비교)
    2025-04-25
    WORKS note
    월간 인공지능 2호 영상 기반 음성-텍스트 변환 솔루션 비교하기(2편_인터페이스 비교)
    2025-04-23
    이용 가이드
    문의하기
    (주) 트위그팜
    사업자등록번호 : 556-81-00254  |  통신판매번호 : 2021-서울종로-1929
    대표 : 백선호  |  개인정보관리책임자 : 박현택
    서울 본사 : (03187) 서울 종로구 6(서린동) 6층
    광주 지사 : (61472) 광주광역시 동구 금남로 193-22
    싱가폴 아시아 지사 : (048581) 16 RAFFLES QUAY #33-07 HONG LEONG BUILDING SINGAPORE
    Family site
    TwigfarmLETR LABSheybunny
    이용약관
    |
    개인정보처리방침
    ⓒ 2024 LETR WORKS. All rights reserved.