
기존 통계 기반 언어 모델의 문제점 학습 데이터에 존재하지 않는 n-gram 데이터가 포함된 문장이 나타날 확률 값을 0으로 부여한다. 이러한 문제점은 Back-off 또는 Smoothing 방법으로 일부 보완할 수는 있지만 완전히 해결할 수 있는 것은 아니다. '장기 의존성 (Long-Term Dependency)' 문제가 발생한다. 즉, n-gram 의 n 의 값이 커질수록 등장 확률 값이 0인 단어 시퀀스가 폭발적으로 증가하게 된다. 단어 / 문장 간 유사도를 계산할 수 없다. 단어들은 모두 원-핫 벡터로 표현되고, 두 단어의 유사성을 구하기 위해 내적을 할 경우 값은 항상 0이 나오며, 이는 두 단어 벡터가 직교 (Orthogonal) 한다는 것이다. 직교한다는 것은 두 벡터가 서로 독립적 (In..

원본 http://colah.github.io/posts/2015-08-Understanding-LSTMs/ The Problem of Long-Term Dependencies RNN의 매력 중 하나는 RNN이 이전 정보를 이전 비디오 프레임을 사용하는 것이 현재 프레임을 이해하는데 도움을 줄 수도 있는 것 같은 현재 작업에 연결할 수 있다는 아이디어임. RNN이 이러한 것을 할 수 있었다면, 엄청나게 유용했을지도 모름. 하지만, 상황에 따라 다름. 가끔, 우리는 현재 작업을 수행하기 위해 최근 정보만을 볼 필요가 있음. 예를 들어, 언어 모델이 이전 단어를 기반으로 다음 단어를 예측하기 위해 시도하는 것을 생각해보겠음. 만약 우리가 "the clouds are in the sky," 의 마지막 단어를 ..

원본 및 참조 http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1-introduction-to-rnns/ http://karpathy.github.io/2015/05/21/rnn-effectiveness/ https://wikidocs.net/22886 RNN (Recurrent Neural Network) ? 사람은 매번 생각을 처음부터 시작하지 않음. 당신이 이 에세이를 읽으면서, 이전 단어들에 대한 이해를 바탕으로 각 단어들을 이해함. 모든 것을 버리고 처음부터 다시 사고를 시작하는 것은 아님. 당신의 생각은 지속적이라는 것임. 기존 신경망들은 이러한 점을 할 수 없으며, 이 것은 중요한 결점인 것처럼 보임. 예를 들어, ..

One-Hot Encoding / Vector (원-핫 인코딩 / 벡터) ? 어휘 집합 (Vocabulary) 내 단어를 표현하는 가장 간단한 방법이다. 어휘 집합 (Vocabulary) ? : 중복된 단어가 없는 서로 다른 단어들의 집합이다. 왜 사용할까 ? 상당히 직관적이며, 간단하다. 컴퓨터나 기계는 보통 문자보다는 숫자를 더 잘 처리하기 때문에, 문자를 숫자 형태로 바꾸기 위해 사용한다. 설명 표현하고 싶은 단어의 인덱스 값을 1, 이외에 나머지 값들은 모두 0으로 설정한다. 원-핫 인코딩을 통해 나온 벡터를 원-핫 벡터 (One-Hot Vector) 라고 하며, 이 벡터의 차원은 어휘 집합의 크기와 동일하다. ex) "강아지", "고양이", "사자", "호랑이", "돼지" 라는 단어들로 구성된 ..