목록Paperreading (7)
On the journey of
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/XGiCk/btssgrXBMzK/lFHk9mqOn13MkDjMARmYz1/img.png)
Mutual Information for Inducing Latent Codes - 2 목표) 기존 GAN에서 Semantic 정보를 담당하는 Latent 벡터를 별도로 분류하여 Semantic 정보를 컨트롤할 수 있는 새로운 GAN 모델 개발 배경 일반적인 GAN은 하나의 Noise vector z로 가짜를 생성 ex) Mnist 숫자이미지 생성 가능, but 각도/굵기 등의 semantic 정보 컨트롤은 불가능 이러한 정보들이 학습 시 고려되지 않아 z에 복잡하게 얽혀져 있음 제안 InfoGAN은 위 문제를 해결하기 위해 두가지 Input vector를 사용: z&c z: 일반적인 GAN에서 사용하는 noise vector c: semantic 정보를 컨트롤 하기 위한 추가 벡터 P(c1,c2,.....
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/QS54v/btsshvLUP7E/NZqjaR2fsW31laohCvjL9k/img.png)
Original Paper) InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets arXiv link ) https://arxiv.org/pdf/1606.03657.pdf Abstract 💡 InfoGAN GAN + Information-theoretic(정보 이론) 정보 이론의 아이디어를 GAN에 붙여 확장시킨 모델 완전한 비지도 방식으로 **Disentanlged representations(분리된 표현)**을 학습할 수 있다. 이를 통해 InfoGAN은 아래와 같은 데이터에서 유의미한 특성을 분리해냈다. MNIST 데이터 세트의 숫자의 각도, 너비 3D 렌더링된 이미지에서의..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/Nu8In/btssbhGDRz7/mlzi9TtVendhfZyR7G810k/img.png)
2.4 From the Perspective of Variational Autoencoder BEIT 의 pre-training은 Variational Autoencoder 관점에서 설명할 수 있음 이를 분포를 기반으로 한 수식으로 나타내보면 아래와 같다. 이때 위 수식은 아래와 같이 변형될 수 있다. Stage 1 : dVAE에서 Image Tokenizer를 얻는 부분에 대한 Term Stage 2 : Masked Image가 주어졌을 때, Image Tokenizer를 얻는 것에 대한 Term 2.5 Pre-Training Setup BEIT 모델의 Pre-Training은 아래와 같이 설정되고 진행됨 VIT-B(Base) 모델 설정과 비슷하게 설정되어 있음 12-layer Transformer w..