์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- ์ฟผ๋ฆฌ๋ฌธ
- ์๋ง์กด
- ๋ ผ๋ฌธ์ฝ๊ธฐ
- API
- AI
- ํ์ด์ฌ
- spark
- ์ฝํ ์ค๋น
- ์ฟผ๋ฆฌ
- ์ธํ๋ ์ด์
- leetcode
- AWS
- ์ฝ๋ฉํ ์คํธ
- Gan
- ์ธ๊ณต์ง๋ฅ
- NLP
- Python
- solvesql
- ๋ด์ค๋ ํฐ
- ์ ํ
- ๋ฐ๋์ฒด
- ๋ฅ๋ฌ๋
- ํ๋ก๊ทธ๋๋จธ์ค
- CNN
- Paperreading
- oracle
- ์ฝํ
- ChatGPT
- SQL
- ๋ฆฌํธ์ฝ๋
- Today
- Total
On the journey of
[CSE URP] InfoGAN ๋ ผ๋ฌธ ์ฝ๊ธฐ (1) Abstract ~ Experiment 1 ๋ณธ๋ฌธ
[CSE URP] InfoGAN ๋ ผ๋ฌธ ์ฝ๊ธฐ (1) Abstract ~ Experiment 1
dlrpskdi 2023. 8. 27. 03:03
Original Paper)
InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets
arXiv link ) https://arxiv.org/pdf/1606.03657.pdf
Abstract
๐ก InfoGAN
- GAN + Information-theoretic(์ ๋ณด ์ด๋ก )
- ์ ๋ณด ์ด๋ก ์ ์์ด๋์ด๋ฅผ GAN์ ๋ถ์ฌ ํ์ฅ์ํจ ๋ชจ๋ธ
- ์์ ํ ๋น์ง๋ ๋ฐฉ์์ผ๋ก **Disentanlged representations(๋ถ๋ฆฌ๋ ํํ)**์ ํ์ตํ ์ ์๋ค.
- ์ด๋ฅผ ํตํด InfoGAN์ ์๋์ ๊ฐ์ ๋ฐ์ดํฐ์์ ์ ์๋ฏธํ ํน์ฑ์ ๋ถ๋ฆฌํด๋๋ค.
- MNIST ๋ฐ์ดํฐ ์ธํธ์ ์ซ์์ ๊ฐ๋, ๋๋น
- 3D ๋ ๋๋ง๋ ์ด๋ฏธ์ง์์์ ๋ฐฉ์๊ฐ, ๋์ด(๊ณ ๋), ๋น์ ๋ฐ๋ฅธ ๋ณํ, ๋๋น ๋ณํ
- CelebA ์ผ๊ตด ๋ฐ์ดํฐ ์ธํธ์์ ํค์ด ์คํ์ผ, ์๊ฒฝ์ ์ ๋ฌด, ๊ฐ์
- ์ด๋ฅผ ํตํด InfoGAN์ ์๋์ ๊ฐ์ ๋ฐ์ดํฐ์์ ์ ์๋ฏธํ ํน์ฑ์ ๋ถ๋ฆฌํด๋๋ค.
Introduction
Unsupervised learning
- ๋น์ง๋ ํ์ต์ ๋ ์ด๋ธ์ด ์ง์ ๋์ง ์์ ๋ฐฉ๋ํ ์์ ๋ฐ์ดํฐ์์ ๊ฐ์น๋ฅผ ์ถ์ถํ๋ ๊ฒ์ด ๋ชฉ์ ์ด๋ค.
- ์ผ๋ฐ์ ์ผ๋ก Representation learning(ํํ ํ์ต)์ ํตํด ๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ์ ์ค์ํ Semantic feature๋ฅผ ์ฝ๊ฒ ํด๋ ๊ฐ๋ฅํ ์์๋ก์จ ๋๋ฌ๋ผ ์ ์๋๋ก ํ์ต
- ์ด๋ฌํ ํํ์ ๋ถ๋ฅ, ํ๊ท, ์๊ฐํ ๋ฐ Policy learning(์ ์ฑ ํ์ต) ๋ฑ ๋ง์ Downstream task์ ์ ์ฉํ๋ค.
- ๋น์ง๋ ํ์ต ์ฐ๊ตฌ์ ์๋น ๋ถ๋ถ์ ์์ฑ ๋ชจ๋ธ๋ง์ ์ํด ์ถ์ง๋๋๋ฐ, ์ด๋ ๊ด์ธก๋ ๋ฐ์ดํฐ๋ฅผ ํฉ์ฑํ๊ฑฐ๋ ‘์์ฑ’ํ ์ ์๋ ๋ฅ๋ ฅ์ด ๋ฐ์ดํฐ์ ๋ํ ์ด๋ค ํํ์ ์ดํด๋ฅผ ์๋ฐํ๋ค๊ณ ๋ฏฟ๊ธฐ ๋๋ฌธ์ด๋ค.
- ๊ทธ๋ฌ๋, ๋น์ง๋ ํ์ต์ ๊ทธ ๊ณผ์ ์์ ์ด๋ค Downstream task์ ์ฐ์ผ ์ง ์ ์ ์๋ค.
- ๋๋ฌธ์ ๋ฐ์ดํฐ์ ๋๋๋ฌ์ง ํน์ฑ์ ๋ช ์์ ์ผ๋ก ๋ํ๋ด๋ Disentangled representations์ด ๋์์ด ๋ ์ ์๋ค.
- ex) Face Dataset - ์ผ๊ตด ํ์ , ๋ ์๊น, ํค์ด์คํ์ผ, ์๊ฒฝ์ ์ ๋ฌด
- InfoGAN์ ๊ธฐ์กด GAN์ ์ฝ๊ฐ์ ์ ์ฝ์ ์ฃผ์ด ์์ฑ ๋ชจ๋ธ์ด Representation์ ํ์ตํ ๋, Disentanlged representations(๋ถ๋ฆฌ๋ ํํ)์ ํ์ตํ๋๋ก ๋์์ค๋ค.
์ด ๋ ผ๋ฌธ์์๋!
point) GAN ๋ชจ๋ธ์ ๊ฐ๋จํ ์์ ์ ํตํด, ์ ์ฌ ์ฝ๋ c์ ์์ฑ๋ ์ด๋ฏธ์ง G(z, c) ์ฌ์ด์ Mutual information๋ฅผ ์ต๋ํํ์ฌ ํด์ ๊ฐ๋ฅํ๊ณ ์๋ฏธ์๋ ํํ(Disentangled representations)์ ํ์ตํ๋ค
- ๋จ์ํ์ง๋ง, ๊ทธ ํ์ง์ ๋ ์ด๋ธ ์ ๋ณด๋ฅผ ์ฌ์ฉํ ์ด์ ์ ์ง๋ ํ์ต๊ณผ ๊ฒฌ์ค ์ ์๋ค.
- ๋
ผ๋ฌธ์ ๋๋จธ์ง ๋ถ๋ถ์์๋,
- ์ํธ ์ ๋ณด๋ฅผ ์ต๋ํํ๋ ๊ฒ์ด ์ด๋ป๊ฒ ํด์ ๊ฐ๋ฅํ ํํ์ ์ด๋ํ๋์ง ์ค๋ช
- ์ด๋ฅผ ์ํ ๊ฐ๋จํ๊ณ ํจ์จ์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ ๋์ถ
- ์คํ ์น์
์์๋,
- ๋น๊ต์ ๊นจ๋ํ ๋ฐ์ดํฐ ์ธํธ์์ InfoGAN๊ณผ ์ด์ ์ ๊ทผ๋ฒ์ ๋น๊ต
- ๋น์ง๋ ํ์ต์ด ์ํ๋ ์ ์๋ ๋ณต์กํ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ํ์ต
Background : GAN, Mutual Informatin for Inducing
1) GAN
- Minimax game์ ํตํด ์ฌ์ธต ์์ฑ ๋ชจ๋ธ์ ํ๋ จํ๋ ํ๋ ์์ํฌ
- ๋ชฉํ๋ ์ค์ ๋ฐ์ดํฐ ๋ถํฌ P_{data}(x)์ ์ผ์นํ๋ Generator ๋ถํฌ P_G(x)๋ฅผ ํ์ตํ๋ ๊ฒ์ด๋ค.
- ๋ฐ์ดํฐ ๋ถํฌ์ ๋ชจ๋ x์ ๋ช ์์ ์ผ๋ก ํ๋ฅ ์ ํ ๋นํ๋ ๋์ , ๋๋ค ๋ ธ์ด์ฆ ๋ณ์ zP_{noise}(z)๋ฅผ ์ํ G(z)๋ก ๋ณํํ๋ค. → Generator ๋ถํฌ P_G์์ ์ํ์ ์์ฑํ๋ Generator G๋ฅผ ํ์ตํ๋ค.
- Discriminator D ๋ ์ค์ ๋ฐ์ดํฐ ๋ถํฌ P_{data}์ ์์ฑ๊ธฐ์ ๋ถํฌ P_G์ ์ํ์ ๊ตฌ๋ณํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ์ฌ ํ์ตํ๋ค.
- ์์์ ์๋์ ๊ฐ๋ค.
2) Mutual Informatin for Inducing Latent codes
: Information Theoretic (์ ๋ณด ์ด๋ก )
- ์๊ทธ๋์ ์กด์ฌํ๋ ์ ๋ณด์ ์์ ์ธก์ ํ๋ ์์ฉ ์ํ์ ํ ๊ฐ๋
๐ก ์ ๋ณด ์ด๋ก ์ ํต์ฌ ์์ด๋์ด๋ ์ ์ผ์ด๋์ง ์๋ ์ฌ๊ฑด(unlikely event)๋ ์์ฃผ ๋ฐ์ํ๋ ์ฌ๊ฑด๋ณด๋ค ์ ๋ณด๋์ด ๋ง๋ค(informative)๋ ๊ฒ. ์๋์ ์ธ๊ฐ์ง ์กฐ๊ฑด์ ๋ง์กฑํ๋ ํจ์๋ ๋ฐ์ ๊ฐ๋ฅํ ์ฌ๊ฑด์ด๋ ๋ฉ์ธ์ง์ ํ๋ฅ ๋ถํฌ์ ์์ ๋ก๊ทธ๋ฅผ ์ทจํ ์์์ด๋ค.
- ์์ฃผ ๋ฐ์ํ๋ ์ฌ๊ฑด์ ๋ฎ์ ์ ๋ณด๋์ ๊ฐ์ง๋ค. ๋ฐ์์ด ๋ณด์ฅ๋ ์ฌ๊ฑด์ ๊ทธ ๋ด์ฉ์ ์๊ด์์ด ์ ํ ์ ๋ณด๊ฐ ์๋ค๋ ๊ฑธ ๋ปํ๋ค.
- ๋ ์์ฃผ ๋ฐ์ํ๋ ์ฌ๊ฑด์ ๋ ๋์ ์ ๋ณด๋์ ๊ฐ์ง๋ค.
- ๋ ๋ฆฝ์ฌ๊ฑด(independent event)์ ์ถ๊ฐ์ ์ธ ์ ๋ณด๋(additive information)์ ๊ฐ์ง๋ค. ์์ปจ๋ ๋์ ์ ๋์ ธ ์๋ฉด์ด ๋๋ฒ ๋์ค๋ ์ฌ๊ฑด์ ๋ํ ์ ๋ณด๋์ ๋์ ์ ๋์ ธ ์๋ฉด์ด ํ๋ฒ ๋์ค๋ ์ ๋ณด๋์ ๋ ๋ฐฐ์ด๋ค.
- ์์ ๋ก๊ทธ๋ฅผ ์ทจํ๋ ์ ๋ณด ์ด๋ก ์ ์์์ ์๋์ ๊ฐ๋ค.
- ์๋ฅผ ๋ค์ด, ๋์ ์ ๋์ ธ ์๋ฉด์ด ๋์ค๋ ์ฌ๊ฑด๊ณผ ์ฃผ์ฌ์๋ฅผ ๋์ ธ ๋์ด 1์ด ๋์ค๋ ์ฌ๊ฑด์ ์ ๋ณด๋์ ๋น๊ตํด ๋ณด๋ฉด
- ์ฃผ์ฌ์ ๋์ด 1์ด ๋์ฌ ์ฌ๊ฑด์ ๋์ ์ ์๋ฉด์ด ๋์ค๋ ์ฌ๊ฑด๋ณด๋ค ๋ ์์ฃผ ๋ฐ์ํ๋ฏ๋ก ๋ ๋์ ์ ๋ณด๋์ ๊ฐ๋๋ค.
- ์ ์์์ ์ ์ฉํด๋ณด๋ฉด ์๋์ ๊ฐ๋ค๊ณ ํ ์ ์๋ค.
Mutual Information for Inducing Latent Codes
- ์ ๋ณด ์ด๋ก ์์ X์ Y ์ฌ์ด์ ์ํธ ์ ๋ณด I(X;Y) ๋ ๋ฌด์์ ๋ณ์ Y์ ์ง์์ผ๋ก๋ถํฐ ํ์ต๋ ๋ฌด์์ ๋ณ์ X์ ๋ํ ์ ๋ณด์ ์์ ์ธก์ ํ๋ค. ์ํธ ์ ๋ณด๋ ๋ ์ํธ๋กํผ ํญ์ ์ฐจ์ด๋ก ํํ๋ ์ ์๋ค.
- ์ง๊ด์ ์ผ๋ก I(X;Y)๋ Y๊ฐ ๊ด์ธก๋ ๋ X์ ๋ถํ์ค์ฑ์ ๊ฐ์์ํค๋ ๊ฒ์ด๋ค.
- ๋ง์ฝ X์ Y๊ฐ ๋ ๋ฆฝ์ ์ด๋ผ๋ฉด, I(X;Y) = 0์ด ๋๋ค.
๊ธฐ๋ณธ์ ์ธ GAN์ ๋จ์ํ noise vector์ธ z๋ฅผ ์ฌ์ฉํ๋ฉฐ Generator๊ฐ ์ด๋ฅผ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ์ ํ์ ๊ฐํ์ง ์๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก Generator๋ z๋ฅผ ๊ณ ๋๋ก ์ฝํ ๋ฐฉ์์ผ๋ก ์ฌ์ฉํ๊ฒ ๋์ด z์ ๊ฐ๋ณ ์ฐจ์์ด ๋ฐ์ดํฐ์ ์๋ฏธ์ ํน์ง๊ณผ ์ผ์นํ์ง ์์ ์ ์๋ค.
- ์ผ์ชฝ์ ๋ถํฌ๋ฅผ ๋ณด๋ฉด, ๋ฐ์ดํฐ๋ค์ด ๋ฌด์ง์ํ๊ฒ ๋ฐฐ์น๋์ด ์๋ค๋ ๊ฒ์ ์ ์ ์๋ค. → Entangled, ๊ผฌ์ฌ์๋ค.
- ์ด๋ฐ ๊ฒฝ์ฐ์์๋ ์ด๋ค ์ ์๋ฏธํ ์ ๋ณด๋ฅผ ํ์ ํ๊ธฐ ์ด๋ ต๊ฒ ๋๋ค.
- ๋ ธ์ด์ฆ์ ๋ถํฌ๊ฐ ๊ผฌ์ฌ์๊ธฐ ๋๋ฌธ์ ๋ ธ์ด์ฆ๋ฅผ ์ฐ์์ ์ผ๋ก ๋ณํ์์ผ๋ ๋ง๋ค์ด์ง๋ ์ด๋ฏธ์ง๊ฐ ์ฐ์์ ์ด์ง๋ ์๊ฒ ๋๋ค.
- InfoGAN์ ๋จ์ผ ๋น์ ํ ๋
ธ์ด์ฆ ๋ฒกํฐ๋ฅผ ์ฌ์ฉํ๋ ๋์ ์
๋ ฅ ๋
ธ์ด์ฆ ๋ฒกํฐ๋ฅผ ๋ ๋ถ๋ถ์ผ๋ก ๋ถํดํ๋ค.
- ์์ถํ ์ ์๋ Noise source z
- ๋ฐ์ดํฐ ๋ถํฌ์ ์๋ฏธ์ ํน์ง์ ๋ํ๋ด๋ ์ ์ฌ ์ฝ๋ c
- ์ ์ฌ ์ฝ๋๋ค์ ์งํฉ์ c1, c2, ..., cL๋ก ํ๊ธฐํ๋ค.
- ๊ฐ์ฅ ๊ฐ๋จํ๊ฒ ์๋์ ๊ฐ์ Factored distribution๋ฅผ ๊ฐ์ ํ ์ ์๋ค.
๊ทธ๋ฌ๋ ์ฌ์ด ํ๊ธฐ๋ฅผ ์ํด ๋ชจ๋ ์ ์ฌ ๋ณ์ c_i์ ์ฐ๊ฒฐ์ ๋ํ๋ด๊ธฐ ์ํด ์ ์ฌ ์ฝ๋ c๋ฅผ ์ฌ์ฉํ ๊ฒ์ด๋ค.
- ex) MNIST
- c1 - 0๋ถํฐ 9๊น์ง digit type
- c2, c3 - ํ์ ๊ณผ ๊ธ์จ์ ๋๊ป์ ๋ํ continuousํ ์ ๋ณด
- ๋ค์์ผ๋ก Generator ๋คํธ์ํฌ์ $z, c$ ๋ฅผ ๋ชจ๋ ์ ๊ณตํ๋ค.
- ๋ฐ๋ผ์ G(z, c)๊ฐ ๋ ํ
์ง๋ง, ํ์ค GAN์์ Generator๋ P_G(x|c) = P_G(x)๋ฅผ ๋ง์กฑํ๋ ๋ฐฉ๋ฒ์ ์ฐพ์ c๋ฅผ ์์ ๋กญ๊ฒ ๋ฌด์ํ ์ ์์ด, ์ด์ ๋์ฒํ๊ธฐ ์ํด ์ ๋ณด ์ด๋ก ์ ์ ๊ทํ๋ฅผ ์ ์ํ๋ค.
- c๊ฐ ๋ฌด์๋ ์ ์๋ ์ด์ ๋ ์์ ์ x์ c๊ฐ ์ ํ ์๊ด ์๋ ๊ฐ์ด๊ธฐ ๋๋ฌธ
- ์ด๋ฅผ ์ํด์, ์ ์ฌ ์ฝ๋ c์ Generator์ ๋ถํฌ G(z, c) ์ฌ์ด์ ๋์ ์ํธ ์ ๋ณด๊ฐ ์์ด์ผ ํ๋ค. ๋ฐ๋ผ์ I(c;G(z,c)) ์ ๊ฐ์ด ๋ฌด์กฐ๊ฑด ๋์์ผ ํ๋ค.
- ๋ฐ๋ผ์ G(z, c)๊ฐ ๋ ํ
์ง๋ง, ํ์ค GAN์์ Generator๋ P_G(x|c) = P_G(x)๋ฅผ ๋ง์กฑํ๋ ๋ฐฉ๋ฒ์ ์ฐพ์ c๋ฅผ ์์ ๋กญ๊ฒ ๋ฌด์ํ ์ ์์ด, ์ด์ ๋์ฒํ๊ธฐ ์ํด ์ ๋ณด ์ด๋ก ์ ์ ๊ทํ๋ฅผ ์ ์ํ๋ค.
Experiments
์ฐ๋ฆฌ ์คํ์ ์ฒซ ๋ฒ์งธ ๋ชฉํ๋ Mutual Information์ด ํจ์จ์ ์ผ๋ก ์ต๋ํ๋ ์ ์๋์ง ์์๋ณด๋ ๊ฒ์ด๊ณ , ๋ ๋ฒ์งธ๋ Generator๋ฅผ ์ฌ์ฉํ์ฌ ํ ๋ฒ์ ํ๋์ Latent factor๋ง ๋ณํ์ํด์ผ๋ก์จ InfoGAN์ด Disentanlged representations์ ํ์ตํ ์ ์๋์ง ์ฌ๋ถ๋ฅผ ํ๊ฐํ๋ ๊ฒ์ด๋ค
Mutual Information Maximization
์ ์ฌ ์ฝ๋ c์ ์์ฑ๋ ์ด๋ฏธ์ง G(z, c) ์ฌ์ด์ ์ํธ ์ ๋ณด๊ฐ ์ ์๋ ๋ฐฉ๋ฒ์ผ๋ก ํจ์จ์ ์ผ๋ก ์ต๋ํ๋ ์ ์๋์ง ํ๊ฐํด๋ณด์.
Disentangled Representation
๐ก MNIST Dataset ์ฌ์ฉํ์ฌ ํ์ตํ ๊ฒฐ๊ณผ์ด๋ค.
code๋ ๊ธธ์ด๊ฐ 3์ธ ๋ฒกํฐ
c1 - ๊ฐ ์ซ์์ ์ข ๋ฅ๋ฅผ ์๋ฏธ
c2 - ์ซ์์ ๊ธฐ์ธ๊ธฐ
c3 - ์ซ์์ ๋๋น
์ค๋ฅธ์ชฝ์ผ๋ก ๊ฐ์๋ก ํด๋นํ๋ code element ๊ฐ์ ์กฐ๊ธ์ฉ ๋ณํ์ํค๋ฉฐ ์์ฑ
- (a)์์ ๋ถํฌ c1๋ง์ ์ฌ์ฉํ์ฌ ์ซ์๋ฅผ ๋ฐ๊พธ์ด ์ถ๋ ฅํ์๋ค.
- (c)๋ ๋ถํฌ c2๋ฅผ ์กฐ์ ํ์ฌ ๊ธ์จ์ ๊ธฐ์ธ๊ธฐ์ ๋ณํ๋ฅผ ์ฃผ์๋ค.
- (d)๋ ๋ถํฌ c3์ ์กฐ์ ํ์ฌ ๊ธ์จ์ ๋๊ป๋ฅผ ๋ณํ์์ผฐ๋ค.
- ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์์๋ ๋ง์ฐฌ๊ฐ์ง๋ก ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋๋ค.
- ๋ฐฉ์๊ฐ, ๋์ด(๊ณ ๋), ๋น์ ๋ฐ๋ฅธ ๋ณํ, ๋๋น ๋ณํ
- ํ์ , ๋๋น ๋ณํ
- ์๊ฒฝ์ ์ ๋ฌด, ํค์ด์คํ์ผ, ๊ฐ์ ์ ๋ณํ ๊ฐ์ ๊ณ ์ฐจ์์ semantic ๋ณํ๋ ์บก์ณํด์ Disentnagled representation์ ํ์ตํ ์ ์์์
'Experiences & Study > CSE URP' 29' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[CSE URP] Instance Normalization(StarGAN) (1) (0) | 2023.08.29 |
---|---|
[CSE URP] InfoGAN ๋ ผ๋ฌธ์ฝ๊ธฐ (2) Background.2 ~ End (0) | 2023.08.27 |
[CSE URP] GAN(Generative Adversarial Networks) ๋ ผ๋ฌธ์ฝ๊ธฐ (0) | 2023.08.26 |
[CSE URP] Auto-Encoding Variational Bayes (ICLR 2014) (0) | 2023.08.25 |
[CSE URP] ViT Self-Attention ๊ตฌ์กฐ (0) | 2023.08.25 |