지난 포스팅 ‘한국어 언어모델(KoreanPre-trained Language Models) 톺아보기 (1)’에서 이어지는 글입니다. 먼저 확인후 이어서 이번 콘텐츠를 보는 것을 추천드립니다.
한국어 언어모델(KoreanPre-trained Language Models) 톺아보기 (1) 보러가기
해외와 마찬가지로 한국어 역시 대량의 말뭉치를 통해 사전 학습된 Transformer를 기반으로 모델을 연구한 사례들이 많이 있습니다. KoBERT, KorBERT, HanBERT, KoELECTRA, KoGPT, Hyper CLOVA 등등 다양한 모델들이 발표되어 왔죠. 이 글에서는 우선 시간순으로 그동안 공개된 주요 모델들과 특징을 간단히 요약하여 살펴보고, 이어서 인코더(Encoder),디코더(Decoder), 인코더-디코더(Encoder-DecoderModel, Seq2seq) 계열로 구분하여 정리해보도록 하겠습니다.
한국어 언어모델 연대기
2019년
KorBERT(Korean Bidirectional Encoder Representations from Transformers)
한국전자통신연구원(ETRI)에서 공개한최초의 한국어 사전 학습 모델입니다. 한국어 뉴스와 백과사전에서 추출한 23GB의 데이터로 학습된 모델로 파라미터 크기는 100M으로 알려졌죠. Morpheme 및 WordPiece tokenizer를 사용하였고 vocab(vocabulary) 크기는 30,349(Morphemes), 30,797(WordPiece)입니다. 교착어인 한국어의 특성을 반영한 덕분에 BERT보다 뛰어난 성능을 보였다고 발표했습니다.
References
https://arxiv.org/pdf/1810.04805.pdf
https://medium.com/towards-data-science/pre-trained-language-models-simplified-b8ec80c62217
https://wikidocs.net/166826
https://itec.etri.re.kr/itec/sub02/sub02_01_1.do?t_id=1110-2020-00231&nowPage=1&nowBlock=0&searchDate1=&searchDate2=&searchCenter=&m_code=&item=&searchKey=b_total&searchWord=KorBERT
https://www.etnews.com/20190611000321
KoBERT(KoreanBidirectional Encoder Representations from Transformers)
SKT에서 공개한 위키피디아, 뉴스 등에서 수집한 5천만개의 문장으로 학습된 모델입니다. 한국어의 불규칙한 언어 변화의 특성을 반영하기 위해 데이터 기반 토큰화(SentencePiece tokenizer) 기법을 적용하였으며 vocab 크기는 8002, 모델의 파라미터 크기는 92M입니다.
References
https://sktelecom.github.io/project/kobert/
https://github.com/SKTBrain/KoBERT
2020년
HanBERT(Hangul Bidirectional Encoder Representations from Transformers)
투블럭 AI에서 공개한 일반문서 및 특허문서 70GB로 학습된 모델입니다. 자체 개발한 Moran tokenizer를 사용하였다고 알려졌으며 vocab 크기는 54,000, 모델 파라미터 크기는 128M입니다.
References
https://twoblockai.files.wordpress.com/2020/04/hanbert-ed8ca8ed82a4eca780-ec868ceab09cec849c.pdf
https://www.stechstar.com/user/zbxe/study_SQL/72557
https://github.com/monologg/HanBert-Transformers
KoGPT2(Korean Generative Pre-trained Transformer 2)
SKT가 발표한 한국어로 학습된 오픈소스 기반 GPT2 모델입니다. GPT2와 마찬가지로 transformer decoder 구조이며 next token prediction을 학습에 이용했죠. 한국어 위키피디아, 뉴스, 나무위키, 네이버 영화리뷰 등 다양한 데이터로부터 추출한 152M 문장으로 학습하였고, Tokenizer는 CBPE(Character Byte Pair Encoding)를 사용했으며, 대화에 자주 쓰이는 이모티콘, 이모지 등을 추가하여 인식 능력을 높였다고 합니다. Vocab 크기는 51,200이고, Base 모델 크기가 125M 파라미터 입니다.
References
https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
https://sktelecom.github.io/project/kogpt2/
https://github.com/SKT-AI/KoGPT2
KoBART(Korean Bidirectional and Auto-Regressive Transformers)
SKT가 기존의 KoBART, KoGPT2에 이어 세 번째로 발표한 한국어 버전 BART 모델입니다. KoBART는 BART와 마찬가지로 인코더-디코더 구조를 가지고 있으며, 사전학습에는 denoising auto encoder 방법을 이용했습니다. 한국어 위키피디아, 뉴스, 책, 모두의 말뭉치, 청와대 국민청원 등 이전보다 더 다양한 0.27B의 데이터로 학습되었습니다.
References
https://arxiv.org/pdf/1910.13461.pdf
https://github.com/SKT-AI/KoBART
https://www.ajunews.com/view/20201210114639936
2021년
KoreALBERT(KoreanA Lite BERT)
삼성SDS에서 공개한 모델로 사전학습에는 ALBERT와 같이 Masked Language Model와 Sentence-Order Prediction 방법이 적용되었습니다. 한국어 위키피디아, 나무위키, 뉴스, 책 줄거리 요약 등 약 43기가바이트(GB) 규모의 데이터를 학습했고, vocab 크기는 32,000이며, 12M의 Base 모델과 18M의 Large 모델이 공개되었습니다.
References
https://www.samsungsds.com/kr/insights/techtoolkit_2021_korealbert.html
https://arxiv.org/pdf/2101.11363.pdf
https://arxiv.org/pdf/1909.11942.pdf
https://www.inews24.com/view/1316425
https://www.itbiznews.com/news/articleView.html?idxno=65720
https://www.itbiznews.com/news/articleView.html?idxno=66222
KE-T5
한국전자기술연구원(KETI)에서 공개한 Text-to-Text Transfer Transformer(T5)를 기반으로 한 한국어와 영어 버전의 모델입니다. 한국어와 영어 코퍼스 93GB를 사용하여 T5 모델과 마찬가지로 mask-fill 방식으로 사전학습 되었다고 알려졌죠. 전처리 과정에는 SentencePiece tokenizer를 사용하였고, vocab크기는 64,000입니다. 결과적으로 총 92.92 GB의 한국어와 영어 코퍼스를 모델 규모 및 활용 목적에 따라 다양하게 선택하여 활용할 수 있도록 다양한 규모의 모델을 공개했습니다.
References
https://arxiv.org/abs/1910.10683
https://huggingface.co/tasks/fill-mask
https://github.com/google/sentencepiece
https://koreascience.kr/article/CFKO202130060717834.pdf
https://zdnet.co.kr/view/?no=20210427130809
KoGPT-Trinity
SKT에서 공개한 모델로 자체 구축한 1.2B의 Ko-DATA dataset으로 학습되었다고 알려졌죠. 모델의 크기는 1.2B로 KoGPT2에 비해 크게 늘어났고, vocab size는 51,200이며 next token prediction으로 사전학습 되었습니다.
References
https://huggingface.co/skt/ko-gpt-trinity-1.2B-v0.5
HyperCLOVA
네이버가 발표한 초대규모 모델로 뉴스, 카페, 블로그, 지식in, 웹 문서, 댓글 등 네이버를 통해 수집된 문서와, 모두의 말뭉치, 한국어 위키피디아등 다양한 문서로부터 추출한 방대한 데이터를 학습했습니다. 학습에 사용된 데이터는 561.8B의 토큰으로 구성되어 있으며 1.3B, 6.9B, 13.0B, 39.0B, 82.0B 등 다양한 크기의 모델이 있습니다.
References
https://www.etnews.com/20210525000052
https://tv.naver.com/v/20349558
https://arxiv.org/abs/2109.04650
KLUE-BERT
KLUE-BERT는 벤치마크 데이터인 KLUE에서 베이스라인으로 사용되었던 모델로, 모두의 말뭉치, CC-100-Kor, 나무위키, 뉴스, 청원 등 문서에서 추출한 63GB의 데이터로 학습되었습니다. Morpheme-based Subword Tokenizer를 사용하였으며, vocab size는32,000이고 모델의 크기는 111M입니다.
References
https://huggingface.co/klue/bert-base?text=%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98+%EC%88%98%EB%8F%84%EB%8A%94+%5BMASK%5D+%EC%9E%85%EB%8B%88%EB%8B%A4.
https://github.com/KLUE-benchmark/KLUE
https://cpm0722.github.io/paper-review/an-empirical-study-of-tokenization-strategies-for-various-korean-nlp-tasks
KoGPT
카카오브레인에서 공개하였으며 GPT3를 벤치마킹한 한국어 모델입니다. 200B의 토큰의 한국어 데이터로 학습된 6B의 초거대 모델로 vocab size는 64,512입니다.
References
https://github.com/kakaobrain/kogpt
https://huggingface.co/kakaobrain/kogpt
https://www.kakaocorp.com/page/detail/9600
http://www.aitimes.com/news/articleView.html?idxno=141575
ET5
T5에 이어 ETRI에서 발표하였으며 T5의 mask-fill과 GPT3의 Next Token Prediction을 동시에 사전학습한 모델입니다. 위키피디아, 신문기사, 방송 대본, 영화/드라마 대본 등에서 추출한 136GB의 데이터로 학습하였습니다. SentencePiece tokenizer 기반의 45,100 vocab size이며 모델의 크기는 60M입니다.
References
http://exobrain.kr/pages/ko/result/assignment.jsp#
https://www.etnews.com/20211207000231
EXAONE(EXpertAi for everyONE)
LG AI research에서 공개한 텍스트, 음성, 이미지를 바탕으로 학습된 멀티모달(multimodal) 모델입니다. 말뭉치 6,000억 개 및 언어와 이미지가 결합되어 있는 고해상도 이미지 2억 5천만장 이상을 학습하였고, 국내 최대인 약 3,000억 개의 파라미터를 갖고 있습니다. 언어를 이미지로, 이미지를 언어로 변환하는 등 인간의 의사소통과 관련된 다양한 정보를 습득하고 다룰 수 있는 멀티 모달리티(Multi-Modality)능력을 갖췄습니다.
References
https://www.lgresearch.ai/blog/view?seq=183
https://www.aitimes.kr/news/articleView.html?idxno=23585
https://arxiv.org/pdf/2111.11133.pdf
3가지 타입의 한국어 언어모델
Encoder-Centric Models: BERT 계열
Decoder-Centric Models: GPT 계열
Encoder-Decoder Models: Seq2seq 계열
함께보면 좋은 콘텐츠
한국어 언어모델 (Korean Pre-trained Language Models) 톺아보기 (1)언어 천재가 된 AI, 다국어(Polyglot) 모델 (1)언어 천재가 된 AI, 다국어(Polyglot) 모델 (2) 오픈소스 언어모델 BLOOM, AI 민주화의 꽃이 될 수 있을까?인공지능이 한국어를 더 어려워하는 이유?