On the journey of
[논문읽기]Liquid Warping GAN with Attention: A Unified Framework for Human Image Synt 본문
[논문읽기]Liquid Warping GAN with Attention: A Unified Framework for Human Image Synt
dlrpskdi 2023. 9. 21. 23:44Original Paper ) https://arxiv.org/abs/2011.09055
해당 논문은 통일된 프레임워크 내에서 인간 동작 모방(Motion Imitation), 외관 전달(Apperance Transfer) 및 새로운 시각 합성(Novel View Synthesis)을 포함한 인간 이미지 합성을 다루고 있다. 즉, 한번 학습된 모델로, 위 3가지 기능을 처리할 수 있음을 보여준다.
기존의 관련연구에서는 주로 인체 구조를 추정하기 위해 2D Key Point(포즈)를 사용했다. 하지만, 사람의 개인화된 모양을 특징짓고 팔다리의 회전을 모델링할 능력이 없는 위치 정보만 사용하는 데서 오는 정보 부족 문제가 있었다.
이에, 본 논문에서는 포즈와 모양을 분리하기 위해 3D 바디 메시 복구 모듈을 사용하였다. 관절의 위치와 회전을 모델링할 수 있을 뿐 아니라 개인화된 체형의 특징정보를 취득할 수 있었으며, 또한, 텍스처, 스타일, 색상 및 얼굴의 세세한 정보와 같은 소스 정보를 보존하기 위해 이미지 및 특징 공간의 소스 정보를 합성 참조로 전파하는 Attentional Liquid Warping GAN with Attentional Liquid Warping Block (AttLWB)을 제안하는 논문이다. 특히 원본 입력의 특징들을 잘 나타내기 위해 denoising convolutional auto-encoder를 사용하였다.
마지막으로, 인간 동작 모방, 외관 전달 및 새로운 시각 합성을 평가하기 위한 새로운 데이터 세트인 iPER(Inspecator) 데이터 세트를 구축하였다. 광범위한 실험은 얼굴의 디테일, 외견의 일관성 및 옷의 세부 사항을 보존하는 측면에서 본 논문의 효과를 입증하고 있음!
전체 구성도
: 해당 논문에서 설명하는 전체 학습 파이프라인 구성도
저자는 비디오에서 무작위로 이미지 쌍을 샘플링하여 원본이미지 I_S와 비교이미지(Reference) I_R을 준비.
(a) Body Mesh Recovery 모듈은 각 이미지의 3D 메시를 추정하여 대응 맵인 C_s와 C_t를 렌더링.
(b)
- Flow Composition 모듈은 먼저 영상 공간에 투영된 두 개의 대응 맵과 투영된 정점(vertices)을 기준으로 변환 흐름(transformation flow) T 를 계산하고, 그 다음 원본이미지 를 전경 이미지와 마스킹된 배경으로 구분
- 마지막으로 변환 흐름 T를 기반으로 원본 이미지를 왜곡하고 왜곡된 이미지 syn를 생성
(c) 마지막 GAN 모듈에서 생성기는 세 개의 스트림으로 구성되며, 이 스트림은 별도로 배경 영상을 G{BG}를 통해 생성하고, 원본 영상 hat 붙은 I_s를 G{SID}를 통해 재구성하며, 기준 조건 하에서 대상 영상을 G_{TSF}를 통해 합성한다. 원본 이미지의 세부 정보를 보존하기 위해 여러 레이어에서 G_{SID}의 원본 특징을 G_{TSF}로 전파(spread)하고 텍스처, 스타일 및 색상 측면에서 원본 정보를 보존하는 새로운 LWB와 AttLWB를 제안한다.
LWB && AttLWB
LWB와 AttLWB의 구성도는 위와 같다.
(b)에 표시된 것과 동일한 구조를 가지고 있지만, 세세하게는 AddWB(a) 또는 AttWB(b에 표시된)로 나뉘게 된다.
(a) AddWB의 구조도. AddWB을 통해 hat{X}l_t는 G_{TSF}에서 추출된 특징 및 왜곡된 원본 특징을 취합하여 구성됩니다. (b) (Attentional) Liquid Warping Block의 구조도이다. X_{s_1}, X_{s_2}, ...는 l^{th}(몇 번째인지) 레이어에서 G_{SID}에 의해 추출된 다양한 소스의 feature map으로 남아 있다.
* T_{s_1\rightarrow t}, T_{s_2\rightarrow t}, ...,T_{s_n\rightarrow t}는 서로 다른 원본 입력에서 타겟까지의 변환 흐름. X^l_t는 l^{th} 레이어에서 G_{TSF}의 feature map.
(c)은 AttWB의 아키텍처입니다. AttWB를 통해, 해당 흐름 T와 관련하여 이중선형 샘플러(Bilinear Sampler)에 의해 왜곡된 원본 특징을 중첩시켜 조합한 G_{TSF}으로부터 feature map을 denormalizing함으로써 최종 출력 형상 \hat{X}^l_t를 획득. 이 과정에서 SPADE가 사용됨!
Network Architectures
Attentional Liquid Warping GAN의 상세 네트워크 아키텍처(위 그림). generator와 discriminator 각각의 네트워크 크기 및 순서, stride size 및 convolution 및 transpose convolution의 적용등을 나타낸다.
결과
- 아래는 샘플 결과들이며, '사람의 형태'를 가진 원본에 대해서도 상당히 그 특징을 잘 살려서 결과가 나오는것을 확인하실 수 있다.
- 제공된 colab(github)을 통해서, 직접 데이터를 바꿔서 테스트해볼 수도 ... 있음👻
- 전체 코드 GitHub - iPERDance/iPERCore: Liquid Warping GAN with Attention: A Unified Framework for Human Image Synthesis
latex 같은 데서 편하게 수식 쓰다가 티스토리에 옮겨오려니까 되게 어렵다 ....