목록자연어처리 (4)
On the journey of
임베딩 임베딩의 종류는? 행렬 분해 기반 방법 말뭉치(corpus) 정보가 들어 있는 원래 행렬을 2개 이상의 작은 행렬로 쪼개는 방식 GloVe, Swivel 예측 기반 방법 어떤 단어 주변에 특정 단어가 나타날지 예측하거나, 이전 단어들이 주어졌을 때 다음 단어가 무엇일지 예측하거나, 문장 내 일부 단어를 지우고 해당 단어가 무엇일지 맞추는 과정에서 학습하는 방법 Word2Vec, FastText, BERT, ELMo, GPT 토픽 기반 방법 주어진 문서에 잠재된 주제를 추론하는 방식으로 임베딩을 수행하는 기법 LDA(Latent Dirichlet Allocation) 임베딩 평가방법은? 내적평가 -word embedding 자체의 성능을 측정하기 위해 specific/intermediate subt..
BEiT: BERT Pre-Training of Image Transformers Hangbo Bao, Li Dong, Songhao Piao, Furu Wei * https://github.com/microsoft/unilm/tree/master/beit Abstract 논문의 제목인 BEIT (Bidirectional Encoder representation from Image Transformers)는 BERT 모델에서 차용한 것 입력 이미지를 2가지 방법을 통해 masked image modeling(MIM) 학습 VIT + Blockwise Masking : image patches (such as 16 x 16 pixles) DALL-E Tokenizer : visual toekns (i.e...
NLP 분야는 요새 large scaling에 대해 관심이 많음 Data augmetation의 경우 포항공대 논문> Seonj.H, Conversational QA Dataset Generation with Answer Revision BERT 활용하기 → 사전학습된 BERT를 사용하는 방법론에 대해 제시 학습 과정> 사전 학습된 BERT 모델 탐색 사전 학습된 BERT에서 임베딩을 추출하는 방법 BERT의 모든 인코더 레이어에서 임베딩을 추출하는 방법 다운스트림 태스크를 위함 BERT 파인 튜닝 방법 3.1 사전 학습된 BERT 모델 탐색 → BERT를 처음부터 사전 학습시키는 건 너무 고비용 ※ 아래 사전학습된 공개 BERT모델 참조 https://github.com/google-research/b..
NLP를 공부하다 보면 가장 많이 느끼게 되는 게, 한국어 데이터셋,한국어 모델이 정말 너무너무 부족하다는 것이다. 대부분이 영어에 초점을 맞추고 있기 때문..그래서, 이번 기회에 공부할 겸 한데 모델들을 모아봐야겠다 싶었다. 그렇다고 모든 종류를 기록하진 못하겠어서 (모두 기록하기엔.. 자료도 시간도 부족) 많이 쓰는 것들 중심으로 기록한다. 각 계열은 아래와 같다 :) Encoder Model(BERT 계열) Decoder Model(GPT 계열) Encoder-Decoder Model(Seq2seq 계열, 어텐션 나오는 그 계열) * 모든 종류가 궁금하다면 https://sooftware.io/korean-plm/ 참고하시길 :) 1. Encoder Model(BERT 계열) 가. KorBERT -..