논문 https://arxiv.org/pdf/1706.09516.pdf Reference https://gentlej90.tistory.com/100 Abstract 이 논문은 새로운 그라디언트 부스팅 (Gradient Boosting) Toolkit인 CatBoost의 핵심 알고리즘 기술들을 설명함. 이 기술들의 조합으로 인해 CatBoost는 다양한 Dataset의 품질 면에서 공개적으로 사용 가능한 다른 구현들 보다 좋은 성능을 냄. CatBoost에서 소개되는 두 가지 중요한 알고리즘적 진보는 고전 (Classic) 알고리즘에 대한 순열 기반 대안 인 순서형 부스팅 (Ordered Boosting) 및 범주형 (Categorical) Feature를 처리하는 혁신적인 알고리즘임. 두 기술 모두 현..
논문 https://papers.nips.cc/paper/6907-lightgbm-a-highly-efficient-gradient-boosting-decision-tree.pdf Abstract GBDT (Gradient Boosting Decision Tree) 는 유명한 머신 러닝 알고리즘이며, XGBoost와 pGBRT 같은 효과적인 구현들이 있음. 비록 많은 Engineering 최적화들이 이 구현들에 적용되었지만, 효율성과 Scalability는 Feature 차원이 높고 데이터 크기가 클 경우, 여전히 만족스럽지 못함. 핵심 이유는 각 Feature가, 가능한 모든 분할 지점의 Information Gain을 추정하기 위해 모든 데이터 인스턴스를 탐색해야된다는 것이며, 이 작업은 많은 시간을..
논문 http://dmlc.cs.washington.edu/data/pdf/XGBoostArxiv.pdf Abstract 부스팅 트리 (Boosting Tree) 는 매우 효과적이고 널리 사용되는 머신러닝 방법임. 이 논문에서 우리는 XGBoost 라는 확장 가능한 (Scalable) End-to-End 트리 부스팅 시스템을 설명함. 우리는 Sparse한 데이터에 대한 새로운 희소성 인식 알고리즘 (Sparsity-Aware Algorithm) 과 근사적인 트리 학습 (Approximate Tree Learning) 을 위한 Weighted Quantile Sketch 를 제시함. 더 중요한 것은, 우리가 Scalable한 트리 부스팅 시스템을 구축하기 위해 캐시 (Cache) 액세스 패턴, 데이터 Co..
논문 https://www.sciencedirect.com/science/article/pii/S0020025518308028 Abstract 문서 분류의 목적은 가장 적절한 레이블을 지정된 문서에 할당하는 것임. 문서 분류에서 가장 중요한 과제는 불충분한 레이블 정보와 구조화 되지 않은 희소 (sparse) 형식임. 준지도 학습 (SSL, Semi-supervised learning) 접근은 불충분한 레이블 정보 문제에 효과적인 방법이 될 수 있는 반면, 여러 문서 표현 방법에 대한 고려는 구조화 되지 않은 희소 형식를 해결할 수 있음. Co-training은 동일한 예시에 대해 Feature Subset이라는 점에서 다양한 관점을 이용하려고 시도하는 유명한 SSL 방법임. 이 논문에서 우리는 문서 분..