반응형 Computer Vision1 Relation-Aware Graph Attention Network for Visual Question Answering(ReGAT for VQA) 리뷰 따라서 VQA 시스템은 물체와 주변 상황을 잘 인식할 뿐 아니라 행위에 대한 의미적 요소인 ‘먹는다’ 그리고 위치적 요소 (중앙에 작은 얼룩말이 위치함 등의 정보를 이미지와 질문에서 잘 이해할 수 있어야 합니다.) 그림은 전체적인 모델의 인코더 구조를 보여줍니다. Faster R-CNN로 물체의 region을 생성하고 Question Encoder는 질문을 임베딩 합니다. 각 리전의 합성곱 피쳐와 바운딩 박스 피쳐가 relation encoder에 입력되어 relation aware하고 question adaptive한 region level representation을 학습하게 합니다. 이 relation aware visual feature와 question embedding이 multimodal f.. 2021. 9. 30. 이전 1 다음 반응형