논문 https://arxiv.org/abs/1905.02244 Abstract 우리는 새로운 아키텍처 디자인 뿐만 아니라 상호 보완적인 검색 기술들의 결합을 기반으로 한 MobileNets의 다음 세대를 제시함. MobileNetV3는 NetAdapt 알고리즘으로 보완된 하드웨어-인식 (Hardware-aware) 네트워크 아키텍처 탐색 (Network Architecture Search, NAS) 의 결합을 통해 모바일 폰의 CPUs에 맞춰 튜닝되며, 그런 다음 새로운 아키텍처의 개발을 통해 상당히 개선됐음. 이 논문은 자동화된 탐색 알고리즘과 네트워크 설계가 기술의 전반적인 상태를 개선시키는 보완적 방법을 활용하여 어떻게 상호작용하는지에 대한 탐색을 시작함. 이 과정을 통해, 우리는 배포를 위한 ..
논문 https://arxiv.org/abs/1801.07698 Abstract 대규모 얼굴 인식 (Face Recognition) 에서 깊은 CNN (DCNNs, Deep Convolutional Neural Networks) 을 사용하는 Feature 학습의 중요한 과제 중 하나는 분별력 (Discriminative Power) 을 향상시키는 적절한 손실 함수 설계임. Centre Loss 는 클래스 내 빽빽함 (Compactness) 을 달성하기 위해 유클리드 공간에서 Deep Features과 이 Features에 해당하는 클래스 Centres 사이의 거리에 패널티를 부과함. SphereFace 는 마지막 완전 연결층 (Fully Connected Layer) 에서 선형 변환 행렬이 각도 공간 (..
논문 https://arxiv.org/pdf/1706.09516.pdf Reference https://gentlej90.tistory.com/100 Abstract 이 논문은 새로운 그라디언트 부스팅 (Gradient Boosting) Toolkit인 CatBoost의 핵심 알고리즘 기술들을 설명함. 이 기술들의 조합으로 인해 CatBoost는 다양한 Dataset의 품질 면에서 공개적으로 사용 가능한 다른 구현들 보다 좋은 성능을 냄. CatBoost에서 소개되는 두 가지 중요한 알고리즘적 진보는 고전 (Classic) 알고리즘에 대한 순열 기반 대안 인 순서형 부스팅 (Ordered Boosting) 및 범주형 (Categorical) Feature를 처리하는 혁신적인 알고리즘임. 두 기술 모두 현..
논문 https://arxiv.org/pdf/1810.04805.pdf Abstract 우리는 BERT라 부르는 새로운 언어 표현 모델을 소개함. 트랜스포머 양방향 인코더 표현 (BERT, Bidirectional Encoder Representations from Transformers) 최신 언어 표현 모델들과는 다르게, BERT는 모든 계층에서 왼쪽 & 오른쪽 문맥을 함께 조정하여 레이블이 없는 텍스트에서 심층 양방향 표현을 Pre-training 하기 위해 설계됨. 결과적으로, Pre-train된 BERT 모델은 Task-Specific을 위해 상당한 아키텍처 수정없이, 다음과 같은 광범위한 작업에 대해 최신 모델을 만들기 위해 한 개의 Output 계층만 추가하여 Fine-tuning 할 수 있..
Triplet Loss (wiki) Triplet loss는 baseline인 anchor를 positive, negative input들과 비교하는 인공 신경 네트워크에 대한 손실 함수 (loss function)임. anchor input과 positive input 사이의 거리는 최소화 되야하며, negative input과의 거리는 최대가 되야함. 보통 워드 임베딩 (word embeddings), 심지어는 벡터, 행렬 학습과 같은 임베딩 학습의 목적으로 유사성을 학습하는 데 사용됨. 이 손실 함수는 유클리디안 거리 (Euclidean distance) 함수를 사용하여 설명할 수 있음. A : anchor input. P : A와 동일한 클래스의 positive input. N : A와 다른 클래..
논문 https://papers.nips.cc/paper/6907-lightgbm-a-highly-efficient-gradient-boosting-decision-tree.pdf Abstract GBDT (Gradient Boosting Decision Tree) 는 유명한 머신 러닝 알고리즘이며, XGBoost와 pGBRT 같은 효과적인 구현들이 있음. 비록 많은 Engineering 최적화들이 이 구현들에 적용되었지만, 효율성과 Scalability는 Feature 차원이 높고 데이터 크기가 클 경우, 여전히 만족스럽지 못함. 핵심 이유는 각 Feature가, 가능한 모든 분할 지점의 Information Gain을 추정하기 위해 모든 데이터 인스턴스를 탐색해야된다는 것이며, 이 작업은 많은 시간을..
논문 http://dmlc.cs.washington.edu/data/pdf/XGBoostArxiv.pdf Abstract 부스팅 트리 (Boosting Tree) 는 매우 효과적이고 널리 사용되는 머신러닝 방법임. 이 논문에서 우리는 XGBoost 라는 확장 가능한 (Scalable) End-to-End 트리 부스팅 시스템을 설명함. 우리는 Sparse한 데이터에 대한 새로운 희소성 인식 알고리즘 (Sparsity-Aware Algorithm) 과 근사적인 트리 학습 (Approximate Tree Learning) 을 위한 Weighted Quantile Sketch 를 제시함. 더 중요한 것은, 우리가 Scalable한 트리 부스팅 시스템을 구축하기 위해 캐시 (Cache) 액세스 패턴, 데이터 Co..
논문 https://ieeexplore.ieee.org/abstract/document/8653834 Abstract 문서 표현을 위해 전통적으로 BoW (Bag-of-Words) 방식을 사용하지만, 이 방식의 문제점은 높은 차원과 희소성 (Sparsity) 을 가진다는 것임. 최근에는, 이러한 문제를 해결하기 위해 (더 낮은 차원, Dense한 분산 표현) 을 얻기 위한 많은 방식들이 제안되었음. 단락 벡터 (PV, Paragraph Vector) 가 하나의 방법임. 단락 (Paragraph) 을 추가적인 단어로 고려하여, Word2Vec을 확장한 방법. 그러나, PV는 모든 작업에서 하나의 표현만 생성하지만, 일부 다른 작업에서는 여러 다른 표현이 필요할 수 있음. 이 논문에서, 우리는 지도 단락 벡..