On the journey of

[이브와] 한국어 언어모델을 정리해보자 본문

Experiences & Study

[이브와] 한국어 언어모델을 정리해보자

dlrpskdi 2023. 6. 9. 18:21

NLP를 공부하다 보면 가장 많이 느끼게 되는 게, 한국어 데이터셋,한국어 모델이 정말 너무너무 부족하다는 것이다. 대부분이 영어에 초점을 맞추고 있기 때문..그래서, 이번 기회에 공부할 겸 한데 모델들을 모아봐야겠다 싶었다. 그렇다고 모든 종류를 기록하진 못하겠어서 (모두 기록하기엔.. 자료도 시간도 부족) 많이 쓰는 것들 중심으로 기록한다. 

 

각 계열은 아래와 같다 :)

  • Encoder Model(BERT 계열)
  • Decoder Model(GPT 계열)
  • Encoder-Decoder Model(Seq2seq 계열, 어텐션 나오는 그 계열)

* 모든 종류가 궁금하다면 https://sooftware.io/korean-plm/ 참고하시길 :)


1. Encoder Model(BERT 계열)

가. KorBERT - 최초의 한국어 Pretrain(사전학습) 모델

- Morpheme 및 WordPiece tokenizer를 사용했으며, 한국어 뉴스 및 백과사전 데이터로 학습한 모델

 

나. KoBERT - 사실 제일 대중적인 모델

- https://sktelecom.github.io/project/kobert/ 

- SKT에서 공개하였으며, 뉴스, Wikipedia 등의 데이터를 기반으로 학습된 모델

-Sentence Tokenizer(데이터 기반 토큰화) 기법 적용

- https://nowolver.tistory.com/13 : 보다 자세히 포스팅한 기록

 

[KoBERT] SKTBrain의 KoBERT 공부하기

NLP에 있어서, BERT 모델이란 기본적으로 Unlabeled Data를 활용해 모델을 학습하고, 이를 기반으로 번역/문서 분류/ Q&A(질의응답) 등의 목적을 위해 신경망을 추가하는 전이학습 모델이다. 출처 - 구글

nowolver.tistory.com

 

다. KLUE-BERT 

- KLUE(벤치마크 데이터: Korean Language Understanding Evaluation; 한국어 모델의 성능을 평가하기 위한 일련의 데이터셋) ; https://klue-benchmark.com/ 데이터셋을 베이스로 한 모델

- 토크나이저 : Morpheme-based Subword Tokenizer 사용

 

라. KoreALBERT

- https://github.com/MrBananaHuman/KalBert

 

GitHub - MrBananaHuman/KalBert: Korean ALBERT

Korean ALBERT. Contribute to MrBananaHuman/KalBert development by creating an account on GitHub.

github.com

- 삼성 SDS가 공개한 모델

- Masked Language Model와 Sentence-Order Prediction 적용

 

마. HanBERT 

- https://github.com/monologg/HanBert-Transformers

 

GitHub - monologg/HanBert-Transformers: HanBert on 🤗 Huggingface Transformers 🤗

HanBert on 🤗 Huggingface Transformers 🤗. Contribute to monologg/HanBert-Transformers development by creating an account on GitHub.

github.com

- 자체개발 토크나이저 활용

 

2. Decoder Model(GPT 계열)

가. KoGPT

- https://github.com/kakaobrain/kogpt

 

GitHub - kakaobrain/kogpt: KakaoBrain KoGPT (Korean Generative Pre-trained Transformer)

KakaoBrain KoGPT (Korean Generative Pre-trained Transformer) - GitHub - kakaobrain/kogpt: KakaoBrain KoGPT (Korean Generative Pre-trained Transformer)

github.com

-https://huggingface.co/kakaobrain/kogpt

 

kakaobrain/kogpt · Hugging Face

Unable to determine this model’s pipeline type. Check the docs .

huggingface.co

- 카카오(KakaoBrain)에선 KoGPT를 냈다

- GPT3 벤치마킹한 모델

 

나. KoGPT2

- SKT에서 배포

- https://github.com/SKT-AI/KoGPT2

 

GitHub - SKT-AI/KoGPT2: Korean GPT-2 pretrained cased (KoGPT2)

Korean GPT-2 pretrained cased (KoGPT2). Contribute to SKT-AI/KoGPT2 development by creating an account on GitHub.

github.com

- 입력받은 텍스트를 기반으로 이어지는 텍스트를 생성하는 모델

 

 

3. Encoder - Decoder Model(Seq2Seq 계열)

가. KoBART - Bidirectional & Auto-Regressive Transformers

- https://github.com/SKT-AI/KoBART 

- 트랜스포머(Transformer) : "Attention is all you need"에서 나온 ,  기존의 seq2seq의 구조인 인코더-디코더를 따르면서도, 논문의 이름처럼 어텐션(Attention)만으로 구현한 모델

- KoBERT와 이름은 비슷하지만 인코더-디코더 구조를 갖고 있으며, 학습데이터도 국민청원 등 보다 다양화된 모델

 

나. KoELECTRA 

- https://huggingface.co/monologg/koelectra-base-v3-discriminator 

 

monologg/koelectra-base-v3-discriminator · Hugging Face

KoELECTRA v3 (Base Discriminator) Pretrained ELECTRA Language Model for Korean (koelectra-base-v3-discriminator) For more detail, please see original repository. Usage Load model and tokenizer >>> from transformers import ElectraModel, ElectraTokenizer >>>

huggingface.co

- https://github.com/monologg/KoELECTRA

 

GitHub - monologg/KoELECTRA: Pretrained ELECTRA Model for Korean

Pretrained ELECTRA Model for Korean. Contribute to monologg/KoELECTRA development by creating an account on GitHub.

github.com

- KoELECTRA - Base,  Small 2가지 버전 존재

- generator에서 나온 token을 보고 discriminator에서 Real/Fake token 여부를 판별(학습)

- Transformers 라이브러리만 설치하면 사용 가능

 

다. KcELECTRA - Korean Comments ELECTRA

- https://huggingface.co/beomi/KcELECTRA-base-v2022

 

beomi/KcELECTRA-base-v2022 · Hugging Face

공개된 한국어 Transformer 계열 모델들은 대부분 한국어 위키, 뉴스 기사, 책 등 잘 정제된 데이터를 기반으로 학습한 모델입니다. 한편, 실제로 NSMC와 같은 User-Generated Noisy text domain 데이터셋은 정

huggingface.co

- https://github.com/Beomi/KcELECTRA

 

GitHub - Beomi/KcELECTRA: 🤗 Korean Comments ELECTRA: 한국어 댓글로 학습한 ELECTRA 모델

🤗 Korean Comments ELECTRA: 한국어 댓글로 학습한 ELECTRA 모델. Contribute to Beomi/KcELECTRA development by creating an account on GitHub.

github.com

- 뉴스 기사들의 한국어 댓글을 이용하여 학습한 ELECTRA 모델