๊ด€๋ฆฌ ๋ฉ”๋‰ด

On the journey of

[CSE URP] InfoGAN ๋…ผ๋ฌธ ์ฝ๊ธฐ (1) Abstract ~ Experiment 1 ๋ณธ๋ฌธ

Experiences & Study/CSE URP' 29

[CSE URP] InfoGAN ๋…ผ๋ฌธ ์ฝ๊ธฐ (1) Abstract ~ Experiment 1

dlrpskdi 2023. 8. 27. 03:03

 

 

Original Paper)
InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets

arXiv link ) https://arxiv.org/pdf/1606.03657.pdf 

Abstract

๐Ÿ’ก InfoGAN

  • GAN + Information-theoretic(์ •๋ณด ์ด๋ก )
  • ์ •๋ณด ์ด๋ก ์˜ ์•„์ด๋””์–ด๋ฅผ GAN์— ๋ถ™์—ฌ ํ™•์žฅ์‹œํ‚จ ๋ชจ๋ธ 
  • ์™„์ „ํ•œ ๋น„์ง€๋„ ๋ฐฉ์‹์œผ๋กœ **Disentanlged representations(๋ถ„๋ฆฌ๋œ ํ‘œํ˜„)**์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹ค.
    • ์ด๋ฅผ ํ†ตํ•ด InfoGAN์€ ์•„๋ž˜์™€ ๊ฐ™์€ ๋ฐ์ดํ„ฐ์—์„œ ์œ ์˜๋ฏธํ•œ ํŠน์„ฑ์„ ๋ถ„๋ฆฌํ•ด๋ƒˆ๋‹ค.
      • MNIST ๋ฐ์ดํ„ฐ ์„ธํŠธ์˜ ์ˆซ์ž์˜ ๊ฐ๋„, ๋„ˆ๋น„
      • 3D ๋ Œ๋”๋ง๋œ ์ด๋ฏธ์ง€์—์„œ์˜ ๋ฐฉ์œ„๊ฐ, ๋†’์ด(๊ณ ๋„), ๋น›์— ๋”ฐ๋ฅธ ๋ณ€ํ™”, ๋„ˆ๋น„ ๋ณ€ํ™”
      • CelebA ์–ผ๊ตด ๋ฐ์ดํ„ฐ ์„ธํŠธ์—์„œ ํ—ค์–ด ์Šคํƒ€์ผ, ์•ˆ๊ฒฝ์˜ ์œ ๋ฌด, ๊ฐ์ •
  •  
Introduction

Unsupervised learning

  • ๋น„์ง€๋„ ํ•™์Šต์€ ๋ ˆ์ด๋ธ”์ด ์ง€์ •๋˜์ง€ ์•Š์€ ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ๋ฐ์ดํ„ฐ์—์„œ ๊ฐ€์น˜๋ฅผ ์ถ”์ถœํ•˜๋Š” ๊ฒƒ์ด ๋ชฉ์ ์ด๋‹ค.
    • ์ผ๋ฐ˜์ ์œผ๋กœ Representation learning(ํ‘œํ˜„ ํ•™์Šต)์„ ํ†ตํ•ด ๋ ˆ์ด๋ธ”์ด ์—†๋Š” ๋ฐ์ดํ„ฐ์˜ ์ค‘์š”ํ•œ Semantic feature๋ฅผ ์‰ฝ๊ฒŒ ํ•ด๋… ๊ฐ€๋Šฅํ•œ ์š”์†Œ๋กœ์จ ๋“œ๋Ÿฌ๋‚ผ ์ˆ˜ ์žˆ๋„๋ก ํ•™์Šต
    • ์ด๋Ÿฌํ•œ ํ‘œํ˜„์€ ๋ถ„๋ฅ˜, ํšŒ๊ท€, ์‹œ๊ฐํ™” ๋ฐ Policy learning(์ •์ฑ… ํ•™์Šต) ๋“ฑ ๋งŽ์€ Downstream task์— ์œ ์šฉํ•˜๋‹ค.
    • ๋น„์ง€๋„ ํ•™์Šต ์—ฐ๊ตฌ์˜ ์ƒ๋‹น ๋ถ€๋ถ„์€ ์ƒ์„ฑ ๋ชจ๋ธ๋ง์— ์˜ํ•ด ์ถ”์ง„๋˜๋Š”๋ฐ, ์ด๋Š” ๊ด€์ธก๋œ ๋ฐ์ดํ„ฐ๋ฅผ ํ•ฉ์„ฑํ•˜๊ฑฐ๋‚˜ ‘์ƒ์„ฑ’ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์ด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์–ด๋–ค ํ˜•ํƒœ์˜ ์ดํ•ด๋ฅผ ์ˆ˜๋ฐ˜ํ•œ๋‹ค๊ณ  ๋ฏฟ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.
  • ๊ทธ๋Ÿฌ๋‚˜, ๋น„์ง€๋„ ํ•™์Šต์€ ๊ทธ ๊ณผ์ •์—์„œ ์–ด๋–ค Downstream task์— ์“ฐ์ผ ์ง€ ์•Œ ์ˆ˜ ์—†๋‹ค.
    • ๋•Œ๋ฌธ์— ๋ฐ์ดํ„ฐ์˜ ๋‘๋“œ๋Ÿฌ์ง„ ํŠน์„ฑ์„ ๋ช…์‹œ์ ์œผ๋กœ ๋‚˜ํƒ€๋‚ด๋Š” Disentangled representations์ด ๋„์›€์ด ๋  ์ˆ˜ ์žˆ๋‹ค.
    • ex) Face Dataset - ์–ผ๊ตด ํ‘œ์ •, ๋ˆˆ ์ƒ‰๊น”, ํ—ค์–ด์Šคํƒ€์ผ, ์•ˆ๊ฒฝ์˜ ์œ ๋ฌด
  • InfoGAN์€ ๊ธฐ์กด GAN์— ์•ฝ๊ฐ„์˜ ์ œ์•ฝ์„ ์ฃผ์–ด ์ƒ์„ฑ ๋ชจ๋ธ์ด Representation์„ ํ•™์Šตํ•  ๋•Œ, Disentanlged representations(๋ถ„๋ฆฌ๋œ ํ‘œํ˜„)์„ ํ•™์Šตํ•˜๋„๋ก ๋„์™€์ค€๋‹ค.

์ด ๋…ผ๋ฌธ์—์„œ๋Š”!
point) GAN ๋ชจ๋ธ์˜ ๊ฐ„๋‹จํ•œ ์ˆ˜์ •์„ ํ†ตํ•ด, ์ž ์žฌ ์ฝ”๋“œ c์™€ ์ƒ์„ฑ๋œ ์ด๋ฏธ์ง€ G(z, c) ์‚ฌ์ด์˜ Mutual information๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜์—ฌ ํ•ด์„ ๊ฐ€๋Šฅํ•˜๊ณ  ์˜๋ฏธ์žˆ๋Š” ํ‘œํ˜„(Disentangled representations)์„ ํ•™์Šตํ•œ๋‹ค
  • ๋‹จ์ˆœํ•˜์ง€๋งŒ, ๊ทธ ํ’ˆ์งˆ์€ ๋ ˆ์ด๋ธ” ์ •๋ณด๋ฅผ ์‚ฌ์šฉํ•œ ์ด์ „์˜ ์ง€๋„ ํ•™์Šต๊ณผ ๊ฒฌ์ค„ ์ˆ˜ ์žˆ๋‹ค.
  • ๋…ผ๋ฌธ์˜ ๋‚˜๋จธ์ง€ ๋ถ€๋ถ„์—์„œ๋Š”,
    • ์ƒํ˜ธ ์ •๋ณด๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๊ฒƒ์ด ์–ด๋–ป๊ฒŒ ํ•ด์„ ๊ฐ€๋Šฅํ•œ ํ‘œํ˜„์„ ์ดˆ๋ž˜ํ•˜๋Š”์ง€ ์„ค๋ช…
    • ์ด๋ฅผ ์œ„ํ•œ ๊ฐ„๋‹จํ•˜๊ณ  ํšจ์œจ์ ์ธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๋„์ถœ
  • ์‹คํ—˜ ์„น์…˜์—์„œ๋Š”,
    • ๋น„๊ต์  ๊นจ๋—ํ•œ ๋ฐ์ดํ„ฐ ์„ธํŠธ์—์„œ InfoGAN๊ณผ ์ด์ „ ์ ‘๊ทผ๋ฒ•์„ ๋น„๊ต
    • ๋น„์ง€๋„ ํ•™์Šต์ด ์‹œํ–‰๋œ ์  ์—†๋˜ ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ํ•™์Šต
Background : GAN, Mutual Informatin for Inducing

1) GAN

  • Minimax game์„ ํ†ตํ•ด ์‹ฌ์ธต ์ƒ์„ฑ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ
    • ๋ชฉํ‘œ๋Š” ์‹ค์ œ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ P_{data}(x)์™€ ์ผ์น˜ํ•˜๋Š” Generator ๋ถ„ํฌ P_G(x)๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด๋‹ค.
  • ๋ฐ์ดํ„ฐ ๋ถ„ํฌ์˜ ๋ชจ๋“  x์— ๋ช…์‹œ์ ์œผ๋กœ ํ™•๋ฅ ์„ ํ• ๋‹นํ•˜๋Š” ๋Œ€์‹ , ๋žœ๋ค ๋…ธ์ด์ฆˆ ๋ณ€์ˆ˜ zP_{noise}(z)๋ฅผ ์ƒ˜ํ”Œ G(z)๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค. → Generator ๋ถ„ํฌ P_G์—์„œ ์ƒ˜ํ”Œ์„ ์ƒ์„ฑํ•˜๋Š” Generator G๋ฅผ ํ•™์Šตํ•œ๋‹ค.
  • Discriminator D ๋Š” ์‹ค์ œ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ P_{data}์™€ ์ƒ์„ฑ๊ธฐ์˜ ๋ถ„ํฌ P_G์˜ ์ƒ˜ํ”Œ์„ ๊ตฌ๋ณ„ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•˜์—ฌ ํ•™์Šตํ•œ๋‹ค.
  • ์ˆ˜์‹์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

2) Mutual Informatin for Inducing Latent codes

: Information Theoretic (์ •๋ณด ์ด๋ก )

  • ์‹œ๊ทธ๋„์— ์กด์žฌํ•˜๋Š” ์ •๋ณด์˜ ์–‘์„ ์ธก์ •ํ•˜๋Š” ์‘์šฉ ์ˆ˜ํ•™์˜ ํ•œ ๊ฐˆ๋ž˜

 ๐Ÿ’ก ์ •๋ณด ์ด๋ก ์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ์ž˜ ์ผ์–ด๋‚˜์ง€ ์•Š๋Š” ์‚ฌ๊ฑด(unlikely event)๋Š” ์ž์ฃผ ๋ฐœ์ƒํ•˜๋Š” ์‚ฌ๊ฑด๋ณด๋‹ค ์ •๋ณด๋Ÿ‰์ด ๋งŽ๋‹ค(informative)๋Š” ๊ฒƒ. ์•„๋ž˜์˜ ์„ธ๊ฐ€์ง€ ์กฐ๊ฑด์„ ๋งŒ์กฑํ•˜๋Š” ํ•จ์ˆ˜๋Š” ๋ฐœ์ƒ ๊ฐ€๋Šฅํ•œ ์‚ฌ๊ฑด์ด๋‚˜ ๋ฉ”์„ธ์ง€์˜ ํ™•๋ฅ  ๋ถ„ํฌ์— ์Œ์˜ ๋กœ๊ทธ๋ฅผ ์ทจํ•œ ์ˆ˜์‹์ด๋‹ค. 

  • ์ž์ฃผ ๋ฐœ์ƒํ•˜๋Š” ์‚ฌ๊ฑด์€ ๋‚ฎ์€ ์ •๋ณด๋Ÿ‰์„ ๊ฐ€์ง„๋‹ค. ๋ฐœ์ƒ์ด ๋ณด์žฅ๋œ ์‚ฌ๊ฑด์€ ๊ทธ ๋‚ด์šฉ์— ์ƒ๊ด€์—†์ด ์ „ํ˜€ ์ •๋ณด๊ฐ€ ์—†๋‹ค๋Š” ๊ฑธ ๋œปํ•œ๋‹ค.
  • ๋œ ์ž์ฃผ ๋ฐœ์ƒํ•˜๋Š” ์‚ฌ๊ฑด์€ ๋” ๋†’์€ ์ •๋ณด๋Ÿ‰์„ ๊ฐ€์ง„๋‹ค.
  • ๋…๋ฆฝ์‚ฌ๊ฑด(independent event)์€ ์ถ”๊ฐ€์ ์ธ ์ •๋ณด๋Ÿ‰(additive information)์„ ๊ฐ€์ง„๋‹ค. ์˜ˆ์ปจ๋Œ€ ๋™์ „์„ ๋˜์ ธ ์•ž๋ฉด์ด ๋‘๋ฒˆ ๋‚˜์˜ค๋Š” ์‚ฌ๊ฑด์— ๋Œ€ํ•œ ์ •๋ณด๋Ÿ‰์€ ๋™์ „์„ ๋˜์ ธ ์•ž๋ฉด์ด ํ•œ๋ฒˆ ๋‚˜์˜ค๋Š” ์ •๋ณด๋Ÿ‰์˜ ๋‘ ๋ฐฐ์ด๋‹ค.
  • ์Œ์˜ ๋กœ๊ทธ๋ฅผ ์ทจํ•˜๋Š” ์ •๋ณด ์ด๋ก ์˜ ์ˆ˜์‹์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค. 

  • ์˜ˆ๋ฅผ ๋“ค์–ด, ๋™์ „์„ ๋˜์ ธ ์•ž๋ฉด์ด ๋‚˜์˜ค๋Š” ์‚ฌ๊ฑด๊ณผ ์ฃผ์‚ฌ์œ„๋ฅผ ๋˜์ ธ ๋ˆˆ์ด 1์ด ๋‚˜์˜ค๋Š” ์‚ฌ๊ฑด์˜ ์ •๋ณด๋Ÿ‰์„ ๋น„๊ตํ•ด ๋ณด๋ฉด
    • ์ฃผ์‚ฌ์œ„ ๋ˆˆ์ด 1์ด ๋‚˜์˜ฌ ์‚ฌ๊ฑด์€ ๋™์ „์˜ ์•ž๋ฉด์ด ๋‚˜์˜ค๋Š” ์‚ฌ๊ฑด๋ณด๋‹ค ๋œ ์ž์ฃผ ๋ฐœ์ƒํ•˜๋ฏ€๋กœ ๋” ๋†’์€ ์ •๋ณด๋Ÿ‰์„ ๊ฐ–๋Š”๋‹ค.
    • ์œ„ ์ˆ˜์‹์— ์ ์šฉํ•ด๋ณด๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

Mutual Information for Inducing Latent Codes
  • ์ •๋ณด ์ด๋ก ์—์„œ X์™€ Y ์‚ฌ์ด์˜ ์ƒํ˜ธ ์ •๋ณด I(X;Y) ๋Š” ๋ฌด์ž‘์œ„ ๋ณ€์ˆ˜ Y์˜ ์ง€์‹์œผ๋กœ๋ถ€ํ„ฐ ํ•™์Šต๋œ ๋ฌด์ž‘์œ„ ๋ณ€์ˆ˜ X์— ๋Œ€ํ•œ ์ •๋ณด์˜ ์–‘์„ ์ธก์ •ํ•œ๋‹ค. ์ƒํ˜ธ ์ •๋ณด๋Š” ๋‘ ์—”ํŠธ๋กœํ”ผ ํ•ญ์˜ ์ฐจ์ด๋กœ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ๋‹ค.
  • ์ง๊ด€์ ์œผ๋กœ I(X;Y)๋Š” Y๊ฐ€ ๊ด€์ธก๋  ๋•Œ X์˜ ๋ถˆํ™•์‹ค์„ฑ์„ ๊ฐ์†Œ์‹œํ‚ค๋Š” ๊ฒƒ์ด๋‹ค.
    • ๋งŒ์•ฝ X์™€ Y๊ฐ€ ๋…๋ฆฝ์ ์ด๋ผ๋ฉด, I(X;Y) = 0์ด ๋œ๋‹ค.
๊ธฐ๋ณธ์ ์ธ GAN์€ ๋‹จ์ˆœํ•œ noise vector์ธ z๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ Generator๊ฐ€ ์ด๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์— ์ œํ•œ์„ ๊ฐ€ํ•˜์ง€ ์•Š๋Š”๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ Generator๋Š” z๋ฅผ ๊ณ ๋„๋กœ ์–ฝํžŒ ๋ฐฉ์‹์œผ๋กœ ์‚ฌ์šฉํ•˜๊ฒŒ ๋˜์–ด z์˜ ๊ฐœ๋ณ„ ์ฐจ์›์ด ๋ฐ์ดํ„ฐ์˜ ์˜๋ฏธ์  ํŠน์ง•๊ณผ ์ผ์น˜ํ•˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ๋‹ค.

  • ์™ผ์ชฝ์˜ ๋ถ„ํฌ๋ฅผ ๋ณด๋ฉด, ๋ฐ์ดํ„ฐ๋“ค์ด ๋ฌด์งˆ์„œํ•˜๊ฒŒ ๋ฐฐ์น˜๋˜์–ด ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. → Entangled, ๊ผฌ์—ฌ์žˆ๋‹ค.
    • ์ด๋Ÿฐ ๊ฒฝ์šฐ์—์„œ๋Š” ์–ด๋–ค ์œ ์˜๋ฏธํ•œ ์ •๋ณด๋ฅผ ํŒŒ์•…ํ•˜๊ธฐ ์–ด๋ ต๊ฒŒ ๋œ๋‹ค.
    • ๋…ธ์ด์ฆˆ์˜ ๋ถ„ํฌ๊ฐ€ ๊ผฌ์—ฌ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๋…ธ์ด์ฆˆ๋ฅผ ์—ฐ์†์ ์œผ๋กœ ๋ณ€ํ™”์‹œ์ผœ๋„ ๋งŒ๋“ค์–ด์ง€๋Š” ์ด๋ฏธ์ง€๊ฐ€ ์—ฐ์†์ ์ด์ง€๋Š” ์•Š๊ฒŒ ๋œ๋‹ค.
  • InfoGAN์€ ๋‹จ์ผ ๋น„์ •ํ˜• ๋…ธ์ด์ฆˆ ๋ฒกํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋Œ€์‹  ์ž…๋ ฅ ๋…ธ์ด์ฆˆ ๋ฒกํ„ฐ๋ฅผ ๋‘ ๋ถ€๋ถ„์œผ๋กœ ๋ถ„ํ•ดํ•œ๋‹ค.
    1. ์••์ถ•ํ•  ์ˆ˜ ์—†๋Š” Noise source z
    2. ๋ฐ์ดํ„ฐ ๋ถ„ํฌ์˜ ์˜๋ฏธ์  ํŠน์ง•์„ ๋‚˜ํƒ€๋‚ด๋Š” ์ž ์žฌ ์ฝ”๋“œ c
      • ์ž ์žฌ ์ฝ”๋“œ๋“ค์˜ ์ง‘ํ•ฉ์€ c1, c2, ..., cL๋กœ ํ‘œ๊ธฐํ•œ๋‹ค.
      • ๊ฐ€์žฅ ๊ฐ„๋‹จํ•˜๊ฒŒ ์•„๋ž˜์™€ ๊ฐ™์€ Factored distribution๋ฅผ ๊ฐ€์ •ํ•  ์ˆ˜ ์žˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์‰ฌ์šด ํ‘œ๊ธฐ๋ฅผ ์œ„ํ•ด ๋ชจ๋“  ์ž ์žฌ ๋ณ€์ˆ˜ c_i์˜ ์—ฐ๊ฒฐ์„ ๋‚˜ํƒ€๋‚ด๊ธฐ ์œ„ํ•ด ์ž ์žฌ ์ฝ”๋“œ c๋ฅผ ์‚ฌ์šฉํ•  ๊ฒƒ์ด๋‹ค.

  • ex) MNIST
    • c1 - 0๋ถ€ํ„ฐ 9๊นŒ์ง€ digit type
    • c2, c3 - ํšŒ์ „๊ณผ ๊ธ€์”จ์˜ ๋‘๊ป˜์— ๋Œ€ํ•œ continuousํ•œ ์ •๋ณด
  • ๋‹ค์Œ์œผ๋กœ Generator ๋„คํŠธ์›Œํฌ์— $z, c$ ๋ฅผ ๋ชจ๋‘ ์ œ๊ณตํ•œ๋‹ค.
    • ๋”ฐ๋ผ์„œ G(z, c)๊ฐ€ ๋  ํ…Œ์ง€๋งŒ, ํ‘œ์ค€ GAN์—์„œ Generator๋Š” P_G(x|c) = P_G(x)๋ฅผ ๋งŒ์กฑํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ฐพ์•„ c๋ฅผ ์ž์œ ๋กญ๊ฒŒ ๋ฌด์‹œํ•  ์ˆ˜ ์žˆ์–ด, ์ด์— ๋Œ€์ฒ˜ํ•˜๊ธฐ ์œ„ํ•ด ์ •๋ณด ์ด๋ก ์  ์ •๊ทœํ™”๋ฅผ ์ œ์•ˆํ•œ๋‹ค.
      • c๊ฐ€ ๋ฌด์‹œ๋  ์ˆ˜ ์žˆ๋Š” ์ด์œ ๋Š” ์ˆ˜์‹ ์ƒ x์™€ c๊ฐ€ ์ „ํ˜€ ์ƒ๊ด€ ์—†๋Š” ๊ฐ’์ด๊ธฐ ๋•Œ๋ฌธ
      • ์ด๋ฅผ ์œ„ํ•ด์„œ, ์ž ์žฌ ์ฝ”๋“œ c์™€ Generator์˜ ๋ถ„ํฌ G(z, c) ์‚ฌ์ด์— ๋†’์€ ์ƒํ˜ธ ์ •๋ณด๊ฐ€ ์žˆ์–ด์•ผ ํ•œ๋‹ค. ๋”ฐ๋ผ์„œ I(c;G(z,c)) ์˜ ๊ฐ’์ด ๋ฌด์กฐ๊ฑด ๋†’์•„์•ผ ํ•œ๋‹ค.
Experiments
์šฐ๋ฆฌ ์‹คํ—˜์˜ ์ฒซ ๋ฒˆ์งธ ๋ชฉํ‘œ๋Š” Mutual Information์ด ํšจ์œจ์ ์œผ๋กœ ์ตœ๋Œ€ํ™”๋  ์ˆ˜ ์žˆ๋Š”์ง€ ์•Œ์•„๋ณด๋Š” ๊ฒƒ์ด๊ณ , ๋‘ ๋ฒˆ์งธ๋Š” Generator๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•œ ๋ฒˆ์— ํ•˜๋‚˜์˜ Latent factor๋งŒ ๋ณ€ํ™”์‹œํ‚ด์œผ๋กœ์จ InfoGAN์ด Disentanlged representations์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ์—ฌ๋ถ€๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ์ด๋‹ค

Mutual Information Maximization

์ž ์žฌ ์ฝ”๋“œ c์™€ ์ƒ์„ฑ๋œ ์ด๋ฏธ์ง€ G(z, c) ์‚ฌ์ด์˜ ์ƒํ˜ธ ์ •๋ณด๊ฐ€ ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•์œผ๋กœ ํšจ์œจ์ ์œผ๋กœ ์ตœ๋Œ€ํ™”๋  ์ˆ˜ ์žˆ๋Š”์ง€ ํ‰๊ฐ€ํ•ด๋ณด์ž.

Disentangled Representation
๐Ÿ’ก MNIST Dataset ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šตํ•œ ๊ฒฐ๊ณผ์ด๋‹ค.
code๋Š” ๊ธธ์ด๊ฐ€ 3์ธ ๋ฒกํ„ฐ
c1 - ๊ฐ ์ˆซ์ž์˜ ์ข…๋ฅ˜๋ฅผ ์˜๋ฏธ
c2 - ์ˆซ์ž์˜ ๊ธฐ์šธ๊ธฐ
c3 - ์ˆซ์ž์˜ ๋„ˆ๋น„
์˜ค๋ฅธ์ชฝ์œผ๋กœ ๊ฐˆ์ˆ˜๋ก ํ•ด๋‹นํ•˜๋Š” code element ๊ฐ’์„ ์กฐ๊ธˆ์”ฉ ๋ณ€ํ™”์‹œํ‚ค๋ฉฐ ์ƒ์„ฑ

  • (a)์—์„œ ๋ถ„ํฌ c1๋งŒ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ˆซ์ž๋ฅผ ๋ฐ”๊พธ์–ด ์ถœ๋ ฅํ•˜์˜€๋‹ค.
  • (c)๋Š” ๋ถ„ํฌ c2๋ฅผ ์กฐ์ ˆํ•˜์—ฌ ๊ธ€์”จ์˜ ๊ธฐ์šธ๊ธฐ์˜ ๋ณ€ํ™”๋ฅผ ์ฃผ์—ˆ๋‹ค.
  • (d)๋Š” ๋ถ„ํฌ c3์„ ์กฐ์ ˆํ•˜์—ฌ ๊ธ€์”จ์˜ ๋‘๊ป˜๋ฅผ ๋ณ€ํ™”์‹œ์ผฐ๋‹ค.
  • ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์…‹์—์„œ๋„ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ๋ƒˆ๋‹ค.
  • ๋ฐฉ์œ„๊ฐ, ๋†’์ด(๊ณ ๋„), ๋น›์— ๋”ฐ๋ฅธ ๋ณ€ํ™”, ๋„ˆ๋น„ ๋ณ€ํ™”

  • ํšŒ์ „, ๋„ˆ๋น„ ๋ณ€ํ™”

  • ์•ˆ๊ฒฝ์˜ ์œ ๋ฌด, ํ—ค์–ด์Šคํƒ€์ผ, ๊ฐ์ •์˜ ๋ณ€ํ™” ๊ฐ™์€ ๊ณ ์ฐจ์›์˜ semantic ๋ณ€ํ™”๋„ ์บก์ณํ•ด์„œ Disentnagled representation์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์—ˆ์Œ