Abstract 우리는 질문을 바탕으로 가중치가 적응적으로 결정되는 동적 파라미터 계층과 함께 CNN (Convolutional Neural Network) 을 학습하여 이미지 질문 답변 (ImageQA) 문제를 해결함. 적응 파라미터 예측의 경우, 우리는 별도의 (Separate) 파라미터 예측 네트워크를 사용하며, 이는 질문을 input으로 삼는 GRU (Gated Recurrent Unit) 와 Output으로서 일련의 후보 가중치를 생성하는 완전 연결 계층으로 구성된 별도의 파라미터 예측 네트워크를 사용함. 그러나, CNN의 완전 연결된 동적 파라미터 계층에서 다수의 파라미터에 대한 파라미터 예측 네트워크를 설계하는 것은 어려움. 우리는 동적 파라미터 계층에서 개별 가중치들을 결정하기 위해 미리 ..
논문 https://arxiv.org/abs/1905.02244 Abstract 우리는 새로운 아키텍처 디자인 뿐만 아니라 상호 보완적인 검색 기술들의 결합을 기반으로 한 MobileNets의 다음 세대를 제시함. MobileNetV3는 NetAdapt 알고리즘으로 보완된 하드웨어-인식 (Hardware-aware) 네트워크 아키텍처 탐색 (Network Architecture Search, NAS) 의 결합을 통해 모바일 폰의 CPUs에 맞춰 튜닝되며, 그런 다음 새로운 아키텍처의 개발을 통해 상당히 개선됐음. 이 논문은 자동화된 탐색 알고리즘과 네트워크 설계가 기술의 전반적인 상태를 개선시키는 보완적 방법을 활용하여 어떻게 상호작용하는지에 대한 탐색을 시작함. 이 과정을 통해, 우리는 배포를 위한 ..
논문 https://arxiv.org/abs/1801.07698 Abstract 대규모 얼굴 인식 (Face Recognition) 에서 깊은 CNN (DCNNs, Deep Convolutional Neural Networks) 을 사용하는 Feature 학습의 중요한 과제 중 하나는 분별력 (Discriminative Power) 을 향상시키는 적절한 손실 함수 설계임. Centre Loss 는 클래스 내 빽빽함 (Compactness) 을 달성하기 위해 유클리드 공간에서 Deep Features과 이 Features에 해당하는 클래스 Centres 사이의 거리에 패널티를 부과함. SphereFace 는 마지막 완전 연결층 (Fully Connected Layer) 에서 선형 변환 행렬이 각도 공간 (..
Triplet Loss (wiki) Triplet loss는 baseline인 anchor를 positive, negative input들과 비교하는 인공 신경 네트워크에 대한 손실 함수 (loss function)임. anchor input과 positive input 사이의 거리는 최소화 되야하며, negative input과의 거리는 최대가 되야함. 보통 워드 임베딩 (word embeddings), 심지어는 벡터, 행렬 학습과 같은 임베딩 학습의 목적으로 유사성을 학습하는 데 사용됨. 이 손실 함수는 유클리디안 거리 (Euclidean distance) 함수를 사용하여 설명할 수 있음. A : anchor input. P : A와 동일한 클래스의 positive input. N : A와 다른 클래..
논문 https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf 개요 1000개의 클래스를 분류하는 ImageNet LSVRC-2010 대회에서 120만개의 고해상도 이미지를 분류하기 위해 dcnn을 훈련했다. 테스트 데이터에서 우리는 top-1과 top-5에서 각각 17%와 37.5% 오류율을 달성했으며 이 전 기술보다 상당히 좋아진 것을 볼 수 있었다. 6000만개의 Parameter와 65만개 Neuron들을 가진 신경망은 5개의 Convolutional Layer, 3개의 Fully-Connected Layer로 구성되어 있으며, 마지막 층은 1000개의 category를 분..