목록Experiences & Study/자연어처리(NLP) (2)
On the journey of
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bcs4pu/btsshwD4qcG/ucNiKhWmP5rZjRSTWIsXkk/img.png)
임베딩 임베딩의 종류는? 행렬 분해 기반 방법 말뭉치(corpus) 정보가 들어 있는 원래 행렬을 2개 이상의 작은 행렬로 쪼개는 방식 GloVe, Swivel 예측 기반 방법 어떤 단어 주변에 특정 단어가 나타날지 예측하거나, 이전 단어들이 주어졌을 때 다음 단어가 무엇일지 예측하거나, 문장 내 일부 단어를 지우고 해당 단어가 무엇일지 맞추는 과정에서 학습하는 방법 Word2Vec, FastText, BERT, ELMo, GPT 토픽 기반 방법 주어진 문서에 잠재된 주제를 추론하는 방식으로 임베딩을 수행하는 기법 LDA(Latent Dirichlet Allocation) 임베딩 평가방법은? 내적평가 -word embedding 자체의 성능을 측정하기 위해 specific/intermediate subt..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/d9tBCy/btspVqtFPiu/8F5O4hyCuUf5u2oze8VVP1/img.png)
NLP 분야는 요새 large scaling에 대해 관심이 많음 Data augmetation의 경우 포항공대 논문> Seonj.H, Conversational QA Dataset Generation with Answer Revision BERT 활용하기 → 사전학습된 BERT를 사용하는 방법론에 대해 제시 학습 과정> 사전 학습된 BERT 모델 탐색 사전 학습된 BERT에서 임베딩을 추출하는 방법 BERT의 모든 인코더 레이어에서 임베딩을 추출하는 방법 다운스트림 태스크를 위함 BERT 파인 튜닝 방법 3.1 사전 학습된 BERT 모델 탐색 → BERT를 처음부터 사전 학습시키는 건 너무 고비용 ※ 아래 사전학습된 공개 BERT모델 참조 https://github.com/google-research/b..