Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction

티스토리 뷰

Paper/Vision

Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction

기내식은수박바 2019. 11. 11. 16:36

Abstract

우리는 질문을 바탕으로 가중치가 적응적으로 결정되는 동적 파라미터 계층과 함께 CNN (Convolutional Neural Network) 을 학습하여 이미지 질문 답변 (ImageQA) 문제를 해결함.
적응 파라미터 예측의 경우, 우리는 별도의 (Separate) 파라미터 예측 네트워크를 사용하며, 이는 질문을 input으로 삼는 GRU (Gated Recurrent Unit) 와 Output으로서 일련의 후보 가중치를 생성하는 완전 연결 계층으로 구성된 별도의 파라미터 예측 네트워크를 사용함.
그러나, CNN의 완전 연결된 동적 파라미터 계층에서 다수의 파라미터에 대한 파라미터 예측 네트워크를 설계하는 것은 어려움.
우리는 동적 파라미터 계층에서 개별 가중치들을 결정하기 위해 미리 정의된 해시 함수를 사용하여 파라미터 예측 네트워크에서 주어진 후보 가중치를 선택하는 해싱 기법을 통합하여 이 문제의 복잡성을 감소시킴.
제시된 네트워크 (ImageQA에 대한 CNN과의 결합 네트워크 및 파라미터 예측 네트워크) 는 역전파 (Back Propagation) 를 통해 End-to-End로 훈련되며, 사전 훈련된 CNN과 GRU를 사용하여 가중치를 초기화함.

1. Introduction

컴퓨터 비전에서 궁극적인 목표 중 하나는 전체적인 장면 이해임.

이는 서로 다른 많은 의미 수준에서 객체 (Objects), 행동(Actions), 사건 (Events), 장면 (Scene), 분위기 (Atmosphere), 그리고 이들의 관계와 같은 다양한 종류의 정보를 포착하는 시스템을 필요로함.
비록 최근 몇 년 동안 다양한 인식 작업들에서 상당한 진전이 있었지만, 이러한 작업들은 각 Dataset이 유사한 수준의 이해 (ex. 객체, 장면, 새 종 [Bird Species], 얼굴 일치 [Face Identity], 행동, 텍스처 등) 를 가진 개념으로 구성된, 제어된 설정에서 상대적으로 단순한 인식 문제를 해결하는 데만 초점을 맞춤.
여러 가지 인식 문제를 동시에 해결하려는 노력이 적었기 때문에 비록 이것이 전체적인 장면 이해를 위한 중요한 단계일지라도 더욱 복잡하고 현실적임.

이미지 질의응답 (Image Question answering, ImageQA) 은 다양한 인식 문제들을 통합하는 작업을 제안함으로써 전체적인 장면 이해 문제를 해결하는데 목표를 둠.

ImageQA는 Figure 1에서 설명된 것처럼 Input 이미지에 대한 질문을 자동적으로 답변하는 작업임.
이 문제의 중요한 도전은 정답을 찾으려면 이미지에 대한 다른 유형과 수준의 이해가 필요하는 것임.
예를 들어, "날씨가 어떤가?" 같은 질문에 대답하기 위해서, 우리는 날씨와 관련된 여러 가지 선택에 대한 분류를 수행해야하는 반면, "이 사진은 낮에 찍은 것인가?" 같은 질문에 대해서는 "예"와 "아니오" 중 하나를 결정해야 함.
이러한 이유 때문에, 단일 인식 작업에 대한 성능 뿐만 아니라 적절한 작업을 선택하는 능력에 ImageQA 문제를 해결하는데 중요함.

ImageQA 문제는 컴퓨터 비전과 머신 러닝 커뮤니티에서 짧은 역사를 가지고 있지만, 일부 방법들이 이미 존재함.

이러한 방법들 중에서, 이미지와 질문에서 추출한 Feature의 조합에 따라 분류를 수행하는 간단한 딥러닝 기반 방법들은 현재 공공 벤치마크에서 최첨단 정확도를 입증하고 있음.
이러한 방법들은 CNN을 사용하여 이미지 Features를 추출하고, 질문으로부터 Feature 기술어 (Descriptor) 를 얻기 위해 CNN 또는 bag-of-words를 사용함.
CNN과 bag-of-words는 이미지와 질문에서 추출한 Feature의 특정 조합의 동시 발생에 의해 정답이 주어지는 방식으로 해석될 수 있음.

기존 방법들과는 달리, 우리는 질문에 따라 다른 인식 작업을 정의함.

이 아이디어를 구현하기 위해서, 우리는 가중치들이 질문을 바탕으로 적응적으로 결정되는 동적 파라미터 계층을 이용한 딥 CNN을 제시함.
우리는 단일 딥 CNN 아키텍처가 동적 파라미터 계층에서 적응적인 가중치 할당을 허용 함으로써 다양한 작업들을 처리할 수 있다는 것을 주장함.
적응적인 파라미터 예측의 경우, 우리는 파라미터 예측 네트워크를 사용하며, 이는 질문을 Input으로 받는 GRU (Gated Recurrent Units) 와 동적 파라미터 계층에 대한 후보 가중치 집합을 생성하는 완전 연결 계층으로 구성됨.
ImageQA에 대한 CNN과 파라미터 예측 네트워크를 포함하는 전체 네트워크는 역전파를 통한 End-to-End로 훈련되며, 네트워크의 가중치들은 사전 훈련된 CNN과 GRU를 사용하여 초기화됨.
이 작업에서 우리의 주요 기여는 아래와 같음 :
- 우리는 ImageQA에 대한 동적 파라미터 계층을 가진 딥 CNN을 성공적으로 채택하며, 이는 파라미터들이 주어진 질문을 바탕으로 동적으로 결정되는 완전 연결 계층임.
- 효율적이고 효과적으로 동적 파라미터 계층에서 수 많은 가중치들을 예측하기 위해서, 우리는 해싱 트릭 (Hasing Trick) 을 적용하며, 이는 네트워크 수용력 (Network Capacity) 에 거의 영향을 미치지 않으면서 파라미터 수를 상당히 감소시킴.
- 우리는 네트워크의 일반화 성능을 향상시키기 위해 대규모 텍스트 Corpus로 사전 훈련된 (Pre-trained) GRU를 Fine-tune 함. 많은 Corpus로 GRU를 사전 훈련하는 것은 적은 훈련 데이터를 다루는 자연스러운 방법이지만, 우리가 아는 한 시도한 사람은 아직 아무도 없음.
- 이 논문은 DAQUAR, COCO-QA, VQA 등 현재 이용 가능한 모든 벤치마크 Dataset에 대한 결과를 보고한 첫 번째 작업임.

2. Related Work

최근 일부 논문에서 ImageQA를 다뤘음. 이 논문들 중 하나를 제외하고 대부분 딥러닝이 기반임.

이 중 한 개의 예외 논문은 베이지안 프레임워크를 제시하며, 이는 자연어 처리와 컴퓨터 비전에서 최근 발전들을 활용함.

예외 논문 : A multi-world approach to question answering about real-world scenes based on uncertain input
구체적으로, ImageQA 문제를 해결하기 위해 의미적 이미지 분할 (Semantic Image Segmentation) 과 상징적인 질문 추론 (Symbolic Question Reasoning) 을 사용함.
그러나, 이 방법은 사전 정의된 술어 (Predicates) 집합에 따라 달라지는데, 이는 Input 이미지들을 이해하는 데 필요한 복잡한 모델들을 나타내기 어렵게 만듬.
- 술어 ? - 술부(John went home에서 went home처럼, 문장 속에서 주어에 대해 진술하는 동사 이하 부분)

딥러닝 기반 방법들은 ImageQA에서 경쟁력 있는 성능을 입증함.

대부분의 딥러닝 기반 방법들은 질문 문장을 처리하기 위해 서로 다른 전략을 사용하는 동안 이미지에서 Features를 추출하기 위해 일반적으로 CNN을 사용함.
일부 알고리즘들은 이미지와 질문을 바탕으로 공동 (Joint) Features의 임베딩을 사용함.
그러나, CNN 기반 이미지 Features를 통합하고 질문에 대한 연속적인 (Continuous) Bag-Of-Words 표현과 같은 단순한 Joint Features로 소프트맥스 분류기를 학습하는 것이 COCO-QA 에서 LSTM 기반 임베딩 보다 더 좋은 성능을 발휘함.
또 다른 연구는 이미지와 질문 둘 다에서 Feature 추출을 위해 CNN을 활용하고, 이 두 Features를 결합하는 것임.
이 방법은 전체 파라미터를 Fine-tuning하도록 허용함으로써 DAQUAR Dataset에서 인상적인 성능 향상을 입증함.

심층 신경망에서 가중치 파라미터 예측은 제로 샷 (Zero-shot) 학습의 맥락으로 아래 논문에서 탐구됨.

논문 : Predicting deep zero-shot convolutional neural networks using textual descriptions.
새로운 클래스의 분류를 수행하기 위해서, 텍스트에서 클래스별 설명에 대한 이진 분류기를 예측하기 위해 다중 계층 퍼셉트론을 훈련시킴.
그러나, 이 방법은 위 논문에서 논의한 것보다 문답의 조합에 기초한 해결책을 찾는 것이 더 복잡한 문제이고, ImageQA에는 상당히 더 많은 후보 답안 집합을 수반하며, 이는 이진 분류 케이스보다 훨씬 더 많은 파라미터를 필요로 하기 때문에 ImageQA에 즉시 적용할 수 없음.
최근에, 제한된 메모리 예산에서 큰 신경 네트워크를 적합하기 위해 해싱 트릭 (Hashing Trick) 기반 파라미터 감소 기법이 제시됨.
그러나, 심층 신경망에서 파라미터의 동적 예측에 이 기법을 적용하는 것은 우리가 아는 바로는 아직 시도하지 않음.

3. Algorithm Overview

3-1. Motivation

비록 ImageQA가 서로 다른 타입과 수준의 이미지 이해를 필요로 하지만, 기존 방법들은 문제를 평탄한 (Flat) 분류 작업으로 제시함.
그러나, 우리는 고정된 파라미터를 가진 단일 심층 신경망을 사용하여 ImageQA를 해결하기에는 어렵다는 것을 알고 있음.
많은 CNN 기반 인식 문제들에서, 새로운 작업들의 적응하기 위해 일부 계층들을 Fine-tune 하는 것은 잘 알려져 있음.
게다가, 일부 네트워크들은 공통 CNN 아키텍처와 연결된 여러 지점을 구성함으로써 두 개 이상의 작업들을 공동으로 해결하기 위해 설계됨.
이 작업에서, 우리는 동적 파라미터 계층에 가중치들을 적용하여, 단일 CNN을 사용하여 여러 종류로 이루어진 인식 작업을 해결하기를 원함.
그 작업이 ImageQA의 질문으로 정의되기 때문에, 계층의 가중치들은 질문 문장에 따라 결정됨.
게다가, 해싱 트릭이 동적 파라미터 계층에서 많은 수의 가중치들을 예측하고 파라미터 폭발을 피하는데 사용됨.

3-2. Problem Fomulation

ImageQA 시스템들은 주어진 이미지 I 와 질문 q 에 대해 가장 좋은 답 a^ 을 예측함.
통상적인 접근방식은 일반적으로 I 과 q, 두 개의 입력에 기초하여 공동 Feature 벡터를 구성하고 방정식을 사용하여 이미지에 대한 분류 문제를 해결함.

4. Network Architecture

Figure 2는 제시된 알고리즘의 종합적인 아키텍처를 설명함.
네트워크는 두 개의 서브 네트워크로 구성됨 :
1. 분류 네트워크
2. 파라미터 예측 네트워크

분류 네트워크 (Classification Network)

하나의 CNN으로 이루어져 있고, CNN의 완전 연결 계층들 중 하나는 동적 파라미터 계층이며, 이 계층의 가중치들은 파라미터 예측 네트워크에 의해 적응적으로 결정됨.

파라미터 예측 네트워크 (Parameter Prediction Network)

GRU Cells과 하나의 완전 연결 계층을 가짐.
이 네트워크는 Input으로 질문을 받고, 실제 값이 있는 벡터를 생성하며, 이는 분류 네트워크에서 동적 파라미터 계층에 대한 후보 가중치들과 일치함.
주어진 이미지와 질문을 고려하여, 우리 알고리즘은 파라미터 예측 네트워크에서 얻은 후보 가중치들과 해싱을 통해 동적 파라미터 계층의 가중치들을 추정함.
그런 다음, 최종 답을 얻기 위해 분류 네트워크에 Input 이미지를 전달함.

4-1. Classification Network

분류 네트워크는 VGG 16-계층을 기반으로 구성되며, ImageNet으로 사전 훈련됨.
우리는 네트워크의 마지막 계층을 제거하고, 세 개의 완전 연결층을 붙임.
네트워크의 마지막 두 번째 완전 연결 계층은 파라미터 예측 네트워크에 의해 가중치들이 결정되는 동적 파라미터 계층임.
마지막 완전 연결 계층은 Output 차원이 가능한 답의 수와 동일한 분류 계층임.
각 답의 확률은 마지막 계층의 Output 벡터에 소프트맥스 함수를 적용시켜 계산됨.

우리는 동적 파라미터 계층을 분류 계층 대신 두 번째 완전 연결 계층에 배치함.

왜냐하면 가장 적은 파라미터 수와 관련이 있기 때문임.
분류 계층에서 파라미터 수가 가능한 답의 수에 비례하여 증가함에 따라, 분류 계층의 가중치를 예측하는 것은 확장성 측면에서 일반적인 ImageQA 문제에 대한 좋은 선택이 아닐 수 있음.
동적 파라미터 계층에 대해 우리가 선택한 것은 다음과 같이 해석될 수 있음.
바로 앞의 계층을 적응시키는 동안 분류 계층을 고정시킴으로써, 우리는 가능한 모든 정답을 포함하는 업무와 독립적인 의미적 임베딩을 얻고, ImageQA 문제를 해결하기 위해 정답 공간에 임베딩된 Input 표현을 사용함.
따라서, 모든 인식 과제들에서 전체적으로 학습된 답변의 관계는 특히 객관식 질문에서 관찰되지 않은 클래스를 포함하는 새로운 답을 해결하는 데 도움이 될 수 있음.
예를 들어, 정확한 Ground-truth 단어 (ex, kitten) 가 아니라 유사한 단어 (ex, cat and kitty) 가 훈련 시간에 표시될 때, 네트워크는 여전히 전체적으로 학습된 정답 임베딩을 기반으로 근접한 답들 (ex, kitten) 을 예측할 수 있음.
비록 우리가 또한 손실 함수를 정의하기 위해 답변들 사이의 관계에 기초한 정답 임베딩의 이점을 이용할 수 있지만, 우리는 그것을 미래 작업으로 남겨둠.

4-2. Parameter Prediction Network

계층과 부합하는 가중치 행렬은 Input 질문 q 의 함수에 의해 파라미터화됨.
f^i - 동적 파라미터 계층의 Input 벡터
f^o - 동적 파라미터 계층의 Ouptut 벡터
W_d - 주어진 Input 질문에 대해 파라미터 예측 네트워크를 사용하여 동적으로 구성된 가중치 행렬
b - 편향 (Bias)

파라미터 예측 네트워크는 GRU Cells로 구성되며, 이는 분류 네트워크 내 동적 파라미터 계층에서 가중치 행렬을 구성하기 위해 사용될 후보 가중치들을 생성함.
LSTM과 유사한 GRU는 다중 시간 척도 (Multiple Time Scales) 에서 의존성을 모델링하도록 설계됨.
Figure 3에서 설명한 것처럼, 그러한 의존성은 게이트 단위들 (Gate Units) 로 Hidden States을 적응적으로 갱신함으로써 포착됨.

그러나, 별도의 메모리 Cell을 명시적으로 유지하는 LSTM과는 달리, GRU는 Reset 게이트와 Update 게이트를 가지고 Hidden States를 직접 갱신함.
비록 우리가 문장 임베딩에 대한 사전 훈련된 네트워크인 건너뛰기 (Skip-Thought) 벡터 모델이 GRU 기반이기 때문에 파라미터 예측 네트워크에 GRU를 사용하지만, 예를 들어 완전 연결, 그리고 CNN 같은 모든 형태의 신경 네트워크는 파라미터 예측 네트워크를 구성하는데 사용될 수 있음.

4-3. Parameter Hashing

동적 파라미터 계층의 가중치들은 질문이 주어진 파라미터 예측 네트워크에서 학습된 모델을 바탕으로 결정됨.
가중치들을 얻는 가장 단순한 방법은 파라미터 예측 네트워크를 사용하여 전체 행렬을 생성하는 것임.
그러나, 행렬 크기는 매우 크고, 네트워크는 제한된 훈련 예제들의 수가 주어지면 쉽게 오버피팅 될 수 있음.
게다가, 우리는 2차적으로 Output의 차원을 증가시키기 위해 파라미터 예측 네트워크의 완전 연결 계층과 GRU 사이에서 더 많은 파라미터들이 필요하기 때문에, 네트워크를 사용하여 전체 가중치 행렬을 예측하는 것은 바람직하지 않음.
따라서, 해싱 트릭을 사용하여 적은 수의 후보 가중치들을 기반으로 가중치 행렬를 구성하는 것이 더 나음.

우리는 최근에 제시된 동적 파라미터 계층의 가중치들을 구성하는 해싱을 기반으로 한 무작위 가중치 공유 기술을 사용함.

구체적으로, 후보 가중치 벡터 p 의 단일 파라미터가 가중치 행렬의 여러 원소들에 의해 공유되며, 이는 가중치 행렬의 2차원 Location을 p 의 1차원 인덱스로 변환하는 미리 정의된 해시 함수를 적용함으로써 실행됨.
이 단순한 해싱 트릭으로 인해, 우리는 네트워크의 정확도를 유지하면서 가중치 행렬의 파라미터 수를 감소시킬 수 있음.
우리는 심층 신경망에 많은 중복된 파라미터들이 있고, 네트워크가 더 적은 후보 가중치 집합을 사용하여 파라미터를 표시할 수 있으므로 해싱 기법을 바탕으로 자유 파라미터 수를 감소시키는 것이 합리적이라고 봄.
아무런 제약 없이 엄청난 수의 파라미터들을 훈련시키는 것 대신에, 가중치 행렬에서 여러 원소들이 동일한 값을 공유하는 것은 실제로 유리할 수 있음.
또한, 자유 파라미터 수가 거의 네트워크 성능 손실 없이 상당히 감소될 수 있음이 증명됨.

5. Training Algorithm

5-1. Training by Error Back-Propagation

제시된 네트워크는 Ground-truths와 추정 답변 사이의 오류를 최소화 하기 위해 End-to-End로 훈련됨.
오류는 분류 네트워크와 파라미터 예측 네트워크 둘을 통한 체인 룰에 의해 역으로 전파되며, 그들은 일차 최적화 방법에 의해 공동으로 훈련됨.
분류와 파라미터 예측 네트워크의 모든 선행 계층들의 그라이언트는 표준 역전파 알고리즘에 의해 계산됨.

5-2. Using Pre-trained GRU

비록 LSTM과 GRU 같은 RNN 기반 Encoder가 문장 임베딩에서 인상적인 성능을 증명하지만, ImageQA 작업에서 이 방법들 이점들은 Bag-of-Words 모델에 비해 근소함.
이 사실에 대한 이유들 중 하나는 ImageQA Dataset의 언어 데이터의 부족임.
대규모 훈련 Corpora를 가진 작업들과는 달리, 아무리 큰 ImageQA Dataset이라도 상대적으로 적은 양의 언어 데이터를 포함함.
ImageQA 문제의 언어 정보의 부족을 다루기 위해서, 우리는 사전 훈련된 임베딩 네트워크를 Fine-tuning하여 큰 언어 Corpus에서 획득한 정보를 전송함.
우리는 74M개 이상의 문장을 포함하는 책 컬렉션 Corpus에 대해 훈련된 Skip-throught 벡터 모델로 GRU를 초기화함.
Skip-thought 벡터 모델의 GRU는 임베딩된 문장에서 주변 문장들을 예측함으로써 비지도 방식으로 훈련된다는 점에 유의해야 함.
이 작업은 문맥을 이해할 필요로 하며, 사전 훈련된 모델은 일반적인 문장 임베딩을 생산하지만, 이는 제한된 훈련 예제들을 가지고 훈련하기에는 어려움.
ImageQA에 대한 일반적인 문장 임베딩으로 초기화된 GRU를 Fine-tuning 함으로써, 우리는 더 잘 일반화된 질문들에 대한 표현을 얻음.

5-3. Fine-tuning CNN

분류 문제들에서 새로운 작업들에 대해 CNN을 이동하는 것은 매우 흔한 일이지만, 우리 문제에서 CNN을 Fine-tun 하는 것은 사소하지 않음.
우리는 CNN에서 동적 파라미터 계층의 그라디언트가 가중치가 파라미터 예측 네트워크에 의해 예측되기 때문에 노이즈가 있다는 것을 관찰함.
따라서, CNN을 Fine-tune 하는 간단한 방법은 일반적으로 성능을 향상 시키는데 실패하며, 우리는 관찰된 문제를 회피하기 위해 CNN의 Fine-tune을 위해 약간 다른 기술을 사용함.
우리는 처음에 VGG-16 계층 네트워크에서 전송된 부분을 제외한 새로운 Dataset을 사용하여 네트워크 파라미터를 갱신하고, 검증 (Validation) 정확도가 포화되면 서브 네트워크의 가중치를 갱신하기 시작함.

6. Experiments

'Paper > Vision' 카테고리의 다른 글

Searching for MobileNetV3 (2)	2019.10.09
ArcFace: Additive Angular Margin Loss for Deep Face Recognition (1)	2019.10.09
Triplet Loss (0)	2019.07.29
AlexNet (0)	2019.03.29

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

글 보관함

천천히 가는 것을 걱정하지 말고 서있는 것을 걱정하라.

티스토리 뷰