On the journey of
[이브와] 한국어 언어모델을 정리해보자 본문
NLP를 공부하다 보면 가장 많이 느끼게 되는 게, 한국어 데이터셋,한국어 모델이 정말 너무너무 부족하다는 것이다. 대부분이 영어에 초점을 맞추고 있기 때문..그래서, 이번 기회에 공부할 겸 한데 모델들을 모아봐야겠다 싶었다. 그렇다고 모든 종류를 기록하진 못하겠어서 (모두 기록하기엔.. 자료도 시간도 부족) 많이 쓰는 것들 중심으로 기록한다.
각 계열은 아래와 같다 :)
- Encoder Model(BERT 계열)
- Decoder Model(GPT 계열)
- Encoder-Decoder Model(Seq2seq 계열, 어텐션 나오는 그 계열)
* 모든 종류가 궁금하다면 https://sooftware.io/korean-plm/ 참고하시길 :)
1. Encoder Model(BERT 계열)
가. KorBERT - 최초의 한국어 Pretrain(사전학습) 모델
- Morpheme 및 WordPiece tokenizer를 사용했으며, 한국어 뉴스 및 백과사전 데이터로 학습한 모델
나. KoBERT - 사실 제일 대중적인 모델
- https://sktelecom.github.io/project/kobert/
- SKT에서 공개하였으며, 뉴스, Wikipedia 등의 데이터를 기반으로 학습된 모델
-Sentence Tokenizer(데이터 기반 토큰화) 기법 적용
- https://nowolver.tistory.com/13 : 보다 자세히 포스팅한 기록
다. KLUE-BERT
- KLUE(벤치마크 데이터: Korean Language Understanding Evaluation; 한국어 모델의 성능을 평가하기 위한 일련의 데이터셋) ; https://klue-benchmark.com/ 데이터셋을 베이스로 한 모델
- 토크나이저 : Morpheme-based Subword Tokenizer 사용
라. KoreALBERT
- https://github.com/MrBananaHuman/KalBert
- 삼성 SDS가 공개한 모델
- Masked Language Model와 Sentence-Order Prediction 적용
마. HanBERT
- https://github.com/monologg/HanBert-Transformers
- 자체개발 토크나이저 활용
2. Decoder Model(GPT 계열)
가. KoGPT
- https://github.com/kakaobrain/kogpt
-https://huggingface.co/kakaobrain/kogpt
- 카카오(KakaoBrain)에선 KoGPT를 냈다
- GPT3 벤치마킹한 모델
나. KoGPT2
- SKT에서 배포
- https://github.com/SKT-AI/KoGPT2
- 입력받은 텍스트를 기반으로 이어지는 텍스트를 생성하는 모델
3. Encoder - Decoder Model(Seq2Seq 계열)
가. KoBART - Bidirectional & Auto-Regressive Transformers
- https://github.com/SKT-AI/KoBART
- 트랜스포머(Transformer) : "Attention is all you need"에서 나온 , 기존의 seq2seq의 구조인 인코더-디코더를 따르면서도, 논문의 이름처럼 어텐션(Attention)만으로 구현한 모델
- KoBERT와 이름은 비슷하지만 인코더-디코더 구조를 갖고 있으며, 학습데이터도 국민청원 등 보다 다양화된 모델
나. KoELECTRA
- https://huggingface.co/monologg/koelectra-base-v3-discriminator
- https://github.com/monologg/KoELECTRA
- KoELECTRA - Base, Small 2가지 버전 존재
- generator에서 나온 token을 보고 discriminator에서 Real/Fake token 여부를 판별(학습)
- Transformers 라이브러리만 설치하면 사용 가능
다. KcELECTRA - Korean Comments ELECTRA
- https://huggingface.co/beomi/KcELECTRA-base-v2022
- https://github.com/Beomi/KcELECTRA
- 뉴스 기사들의 한국어 댓글을 이용하여 학습한 ELECTRA 모델
'Experiences & Study' 카테고리의 다른 글
[사조사 실기] 메모 (0) | 2023.07.02 |
---|---|
[이브와] 프로그레시브 웹 앱(PWA)란? (0) | 2023.06.24 |
[AI Challenge for Biodiversity] 공모전 (2) (3) | 2023.06.08 |
[KoBERT] SKTBrain의 KoBERT 공부하기 (1) | 2023.05.29 |
[AI Challenge for Biodiversity] 공모전 (1) (0) | 2023.05.03 |