논문 https://arxiv.org/abs/1706.03762 Abstract 우수한 시퀀스 Transduction 모델은 Encoder & Decoder를 가진 복잡한 RNN 또는 CNN을 기반으로 구성됨. 최고 성능 모델은 또한 어텐션 (Attention) 메커니즘을 통해 Encoder & Decoder를 연결함. 우리는 트랜스포머 (Transformer) 라는 새롭고 간단한 네트워크 아키텍처를 제시함. 이는 Recurrence & Convolution 을 완전히 제외하고, 어텐션 메커니즘만을 기반으로 함. 두 가지 기계 번역 연구 실험에서, 이러한 모델들이 훨씬 병렬적이고 훈련 시간이 더 적게 소요되는 반면, 성능이 우수하다는 것을 보여줌. 1. Introduction RNN (Recurrent ..
논문 https://arxiv.org/pdf/1810.04805.pdf Abstract 우리는 BERT라 부르는 새로운 언어 표현 모델을 소개함. 트랜스포머 양방향 인코더 표현 (BERT, Bidirectional Encoder Representations from Transformers) 최신 언어 표현 모델들과는 다르게, BERT는 모든 계층에서 왼쪽 & 오른쪽 문맥을 함께 조정하여 레이블이 없는 텍스트에서 심층 양방향 표현을 Pre-training 하기 위해 설계됨. 결과적으로, Pre-train된 BERT 모델은 Task-Specific을 위해 상당한 아키텍처 수정없이, 다음과 같은 광범위한 작업에 대해 최신 모델을 만들기 위해 한 개의 Output 계층만 추가하여 Fine-tuning 할 수 있..
논문 https://ieeexplore.ieee.org/abstract/document/8653834 Abstract 문서 표현을 위해 전통적으로 BoW (Bag-of-Words) 방식을 사용하지만, 이 방식의 문제점은 높은 차원과 희소성 (Sparsity) 을 가진다는 것임. 최근에는, 이러한 문제를 해결하기 위해 (더 낮은 차원, Dense한 분산 표현) 을 얻기 위한 많은 방식들이 제안되었음. 단락 벡터 (PV, Paragraph Vector) 가 하나의 방법임. 단락 (Paragraph) 을 추가적인 단어로 고려하여, Word2Vec을 확장한 방법. 그러나, PV는 모든 작업에서 하나의 표현만 생성하지만, 일부 다른 작업에서는 여러 다른 표현이 필요할 수 있음. 이 논문에서, 우리는 지도 단락 벡..