반응형
- 따라서 VQA 시스템은 물체와 주변 상황을 잘 인식할 뿐 아니라 행위에 대한 의미적 요소인 ‘먹는다’ 그리고 위치적 요소 (중앙에 작은 얼룩말이 위치함 등의 정보를 이미지와 질문에서 잘 이해할 수 있어야 합니다.)
- 그림은 전체적인 모델의 인코더 구조를 보여줍니다. Faster R-CNN로 물체의 region을 생성하고 Question Encoder는 질문을 임베딩 합니다.
- 각 리전의 합성곱 피쳐와 바운딩 박스 피쳐가 relation encoder에 입력되어 relation aware하고 question adaptive한 region level representation을 학습하게 합니다.
- 이 relation aware visual feature와 question embedding이 multimodal fusion module에 입력되어 질문을 예측하는데 쓰이는 joint representation을 생성합니다.
- (1)~(3) 주변 노드에 대해 유사도 비교를 통한 attention score 계산
- (4)~(6) multi head attention
- 그림 4에서는 image region이 질문에 대해서 attention weight을 어떻게 가져가는지 보여줍니다
- 그림 4의 3,4 번째 행에서는 question adaptive attention이 적용됨으로서 attention map이 더 예리하게 나타나 더 관련 있는 region을 알게 해주는 것을 보여줍니다
- 그림 5는 어떤 종류의 관계가 성능에 더 영향을 주는지 보여줍니다
- 그림 5에서 놀라운 점은 학습된 implicit relations가 spatial, semantic의 상호작용까지 포착 가능하다는 점입니다
반응형
댓글