On the journey of
[논문읽기] Human Attention in VQA : Do Humans and Deep Networks Look at the Same Regions? 본문
[논문읽기] Human Attention in VQA : Do Humans and Deep Networks Look at the Same Regions?
dlrpskdi 2023. 10. 9. 11:33Original Paper) https://arxiv.org/abs/1606.03556
꽤나 클래식한(=오래된. 2016년 paper이다) Human Attention Data를 방법이 신박하니 experiment에 집중하라는 조언 아닌 조언을 받았는데, 논문에선 experiment보다는 배경이나 학술적인(?) 부분에 집중하는 게 일반적이라 의외였다.
Introduction
인간은 이미지를 파악할 때 전체를 보기 보단 선택적으로 특정 부분에 집중함(selectively attention)으로써 빠르게 인지하는 능력을 갖고 있다. 본 논문에선 이러한 인간의 인지 능력을 기반으로 한 attention 모델을 제시한다.
여기서 다루는 내용은 총 2가지이다.
- 인간은 Visual Question에 대한 답을 하기 위해 어떤 부분(image region)에 집중할까?
- attention 매커니즘을 활용한 VQA 모델들은 인간과 동일한 부분(image region)에 집중할까?
→ 한마디로, 인간의 인지 능력을 확인해보고 현재 attention 매커니즘 기반 VQA 모델과 비교해보자!
위 사진을 보면, 동일한 이미지(테니스를 치고 있는 여자 이미지)에 대해 서로 다른 질문이 들어왔을 때, 인간은 특정 질문에 답하기 위해 서로 다른 부분에 집중하는 것을 알 수 있다.
Q1. 바닥 표면은 어떤 재질로 이루어졌는가?
→ 표면의 재질을 파악하기 위해 ‘바닥’ 부분에 집중!
Q2. 여자가 무슨 게임을 하고 있는가?
→ 어떤 게임인지 파악하기 위해 ‘여자가 사용 중인 도구’에 집중!
⇒ 질문에 대한 답을 해결하기 위해서 사람이 이미지나 어떠한 장면을 보면서 판단할 경우에는 초점을 두는 부분이 있다.
Related Work
Stacked Attention Networks (SAN), Hierarchical Co-Attention Network(HieCoAtt)에 대한 비교 내용 및 실험 결과를 해석해 보았다.
VQA model
- Attention-based models for VQA은 질문이 주어진 이미지의 관련된 영역을 강조하기 위해 conv neural networks를 사용한다(uses question parsing to compose the neural network)
- 구체적으로는, SAN, HieCoAtt의 모델을 이용해서 증명하고자 했다.
- 이 증명을 하는 과정에서 논문 2개가 더 나오는데, 관련 논문은 추후 읽고 정리한 후에 작성해보겠다...
- 참고로 더 나오는 논문은 아래와 같다.
- https://arxiv.org/abs/1511.02274 : Stacked Attention Networks for Image Questin Ansering(2016.01)
- https://arxiv.org/abs/1606.00061 : Hierarchical Question-Image Co-Attention for Visual Answering(2017)
- 참고로 더 나오는 논문은 아래와 같다.
다시 논문으로 돌아오자.
⇒ all tasks - unsupervised attention models, model이 downstream loss (VQA cross-entropy)를 최적화하기 위해서 spatial distribution을 생성했다. 그래서 이 생성된 결과는 spatial 분포에 대한 해석이 가능하도록 한다.
Human studies
이미지 돌출 및 시각적 인식을 이해를 위해 collecting eye tracking data를 모으는 것은 구축 방법도 어렵고, 비싸다.
자연스러운 탐색을 연구하고 피사체가 흐릿한 이미지에서 보고 싶은 곳으로 마우스 커서를 자유롭게 이동하도록 요청하여 작업 독립적인 인간 주석을 수집(=질문에 정확하게 답하는 데 중요한 흐릿한 이미지의 일부를 선명하게 하도록 피험자에게 지시하여 GT attention 주석을 수집). 신박하다고 한 이유가 이거였다...
How?
마우스 커서를 통해서 click and drag 과정을 통해서 blur한 상태를 coloring하도록 했는데 해당 부분을 human attention이라고 가정했다. 위의 예시에서 테니스 치는 여자의 그림이 주어졌다고 가정하자. (Q. 사람은 무엇을 하고있나요?)라는 질문을 주어졌을때 라켓을 확인하기 위해서 blur한 상태의 이미지를 계속 click and drag 동작을 한다. 그리고 라켓이라는 것을 확인 후 "테니스 중이다."라는 답변을 추출할 수 있게 한다.
Dataset
Amazon Mechanical Turk (AMT)에서 제공한 데이터 수집 후 human attention의 분포를 알 수 있는 map을 추출했다.
VQA-HAT (Human ATtention) Dataset
위에 데이터셋 링크를 걸어는 놨지만, 예시도 가져와봤다.
여기서는 How?가 아래와 같다.
흐릿한 이미지와 이미지에 대한 질문을 제시하고, 마우스를 사용하여 부드럽고 클릭하고 끌어서 '채색'하는 동작으로 질문에 올바르게 답하는 데 도움이 되는 이미지 영역을 선명하게 하도록 대상에게 요청하는 방식이다.
Attention Annotation interface
논문에서 제시한 인터페이스는 이미지의 저해상도 흐릿한 버전을 먼저 표시하는 것부터 시작한다. 피사체가 선명하게 할 영역을 지능적으로 선택할 수 있도록 하기 위한 것을 위한 방법이라고 한다.
three variants of our attention annotation interface
- Blurred image without answer 흐릿한 이미지, 답변 없는 질문을 보여주고, 선명하게 하고 싶은 위치를 물어보고 질문을 넣게 한다. 해당된 대답과 고차원의 원본 이미지를 볼 수 없기 때문에 언제 선명화 작업을 멈춰야하는지 모를 것이다.
- Blurred image with answer 위의 그림 b에 해당하는 부분에 대한 내용으로 질문에 대한 답변과 흐릿한 이미지와 함께 피험자에게 위와 같은 행위를 시킬 때 좀 더 정확하게 방향성을 찾아서 attention을 하는 것을 확인할 수 있었다.
- Blurred and original image with answer
- 위의 그림 c에 해당하는 부분에 대한 내용으로 질문-답변 pair과 원본 이미지가 표시되었다. 원본 이미지를 보고 질문과 답변을 보는 것이 대부분의 정보를 피험자에게 제공하므로 가장 정확한 attention map을 생성할 수 있다.
수집한 attention map을 군집화 작업을 해보니까 다른 분포를 가지고 있음을 확인할 수 있다.
그래서 해당 방법을 사용했기 때문에 VQA HAT dataset 예시에서 3개의 attention map이 존재하는 것에 대한 이해를 할 수 있었다.
Human Attention Map vs Unsupervised Attention Models
attention mechanism이 적용된 deep VQA 모델들의 attention이 human attention map과 얼마나 일치할까? 에 대한 부분.
비교 대상은 아래와 같다.
- SAN model
- HieCoAtt
- eye-tracking predicting model(역시 논문이다)
- human attention
위와 같은 결과가 나왔다. 실험은 잘라낸 attention map끼리 유사도를 이용해서 rank를 구하고, 특정 부분의 값에 무관해지도록 하기 위해서 cosIne 유사도 대신 rank-correlation coefficient를 계산하면서 진행하였다. 이 coefficient 계산 방식도 스피어만 순위 상관계수(값을 사용하지않고 순위를 매겨서 그 순위에 대해서 상관계수 값을 구하는 방법)를 활용한 방식이었다. 그렇게 두 개의 ranked list 간의 rank-correlation coefficients를 계산을 했다고...한다.
rank correlation coefficient 방법 중 kendalltau
보다 구체적인 방법에 대해서는 위 medium을 참고하시길...
Comparison Metric: Rank Correlation
- scale both the machine-generated and human attention maps to 14x14!
- rank the pixels according to their spatial attention and then compute correlation between these two ranked lists!
Judd saliency maps(Eye-tracking) 데이터를 사용한 모델이 human attention map과 가장 상관관계가 높은 반면 SANs, HieCoAtt가 엄청 낮게 나온 것을 확인할 수 있다. HieCoAtt-Q model 모델이 가장 높은 human attention map과의 상관관계를 갖는 것으로 나온 것을 확인할 수 있었다.
Q. What is the man doing?이라는 질문에 대해서 각각의 baseline 모델들이 attention map을 어떻게 출력하는지 확인해보면 HieCoAtt-Q 모델이 비교적으로 human attention과 비슷함을 알 수 있다.
Conclusion
1. 인간은 Visual Question에 대한 답을 하기 위해 어떤 부분(image region)에 집중할까?
⇒해당 질문에 대해서 Human attention map을 모을 수 있는 새로운 방법을 제안했다.
2. attention 매커니즘을 활용한 VQA 모델들은 인간과 동일한 부분(image region)에 집중할까?
⇒ DL VQA 모델들의 attention이 실제로 사람이 이미지를 확인하는 부분과 얼마나 다른가에 대한 질문을 분석했는데, 아마도 VQA model을 제안했을때 이 논문에서 제안한 방법을 이용해서 비교해보는 방법이 있다는 새로운 방법론을 제안한 것으로 보인다.
: 16년도 논문이니 트렌드도 좀 봐야겠다...어쩌면 더 나은 방법론이 나와 있을지도.
'Experiences & Study > VQA' 카테고리의 다른 글
[논문읽기] BEiT : BERT Pre-training of Image Transformers (1) | 2023.10.17 |
---|---|
[논문읽기] VinVL : Revisiting Visual Representations in Vision-Language Models (0) | 2023.10.13 |
[논문읽기] VQ-VAE (Neural Discrete Representation Learning) (1) | 2023.10.11 |
[논문읽기] OSCAR : Object-Semantics Aligned Pre-training for Vision-Language Tasks (2) | 2023.10.10 |
[논문읽기] Zero-Shot Learning Through Cross-Modal Transfer (1) | 2023.10.09 |