티스토리 뷰

반응형

논문

 

Introduction

  • 현대 소비자들은 감당 못할 정도의 많은 선택권들을 제공 받고 있음.
  • 가장 적절한 상품을 소비자들에게 매칭하는 것은 유저의 만족도와 충성도를 향상시키는 핵심적인 역할을 함.
  • 따라서, 더 많은 Retailers가 제품에 대한 유저의 관심 패턴을 분석하여, 유저 취향에 맞는 개인화 추천을 제공하는 추천 시스템에 관심을 갖게 되었음.
  • 좋은 개인화 추천또 다른 차원의 유저 경험 (User Experience) 을 추가할 수 있기 때문에, 아마존, 넷플릭스 같은 e-commerce 리더들은 추천 시스템을 웹 사이트의 중요한 부분으로 만들었음.
  • 그러한 시스템들은 영화, 음악, TV 쇼 같은 엔터테인먼트 상품들에서 특히 유용함.
  • 많은 고객들이 동일한 영화를 시청할 것이고, 각 고객은 수 많은 다른 영화들을 시청할 것임.
  • 고객들이 특정 영화에 대한 만족도를 기꺼이 나타낸다는 것을 증명했기 때문에, 어떤 영화가 어떤 고객을 끌어들일 수 있는지에 대한 대규모 데이터를 사용할 수 있음.

 

Recommender System Strategies

  • 대체로, 추천 시스템은 두 가지 전략 중 하나를 기반으로 만들어짐.

1. Contents-based Filtering (CBF) Approach

  • CBF는 각 유저 또는 제품에 대한 프로필을 생성하여 속성을 특징화함.
    • 예를 들어, 영화 프로필은 장르, 배우, 흥행성 등에 관한 속성을 포함할 수 있음.
    • 유저 프로필은 적절한 설문지로 제공받은 답변 또는 인구 통계 정보를 포함할 수 있음.
    • 이 프로필들은 프로그램이 유저와 이에 어울리는 상품을 연관지어줌.
  • 당연히, CBF 전략들은 이용할 수 없거나 쉽게 수집하지 못하는 외부 정보가 필요함.

2. Collaborative Filtering (CF) Approach

  • CBF의 대안명시적인 프로필을 작성할 필요 없이, 과거 유저의 행동 (ex. 이전 거래 또는 제품 등급) 에만 의존함.
  • 이 접근은 최초 추천 시스템인 Tapestry의 개발자들이 만든 용어인 협업 필터링 (CF, Collaborative Filtering) 으로 알려져 있음.
  • CF유저 간의 관계와 상품 간의 상호의존성을 분석하여, 새로운 유저-아이템 연관성을 식별함.
  • CF의 중요 매력도메인에 자유롭다는 것이며, 종종 이해하기 어렵거나 CBF를 사용하여 프로파일링 하기 어려운 데이터를 다룰 수 있음.
  • 일반적으로, CBF보다 정확하지만, CF는 \(Cold \, Start\) 라는 문제를 겪음.
    • \(Cold \, Start\) 는 시스템이 새로운 제품과 유저를 다루지 못하는 문제임.
  • 이러한 측면에서는 CBF가 우수함.
  • CF의 두 가지 주요 Areas는 인접 방법 \((Neighborhood \, Methods)\) 과 잠재 요인 모델 \((Latent \, Factor \, Models)\) 이 있음.

2-1. Neighborhood Method (NM)

  • NM아이템 또는 유저 사이의 관계를 계산하는 것에 중점을 둠.
  • 아이템-지향 접근법동일한 유저가 매긴 "이웃 (Neightboring)" 아이템 등급을 기준으로 유저의 선호도를 추정함.
    • 상품의 이웃들동일한 유저가 등급을 매길 때, 유사한 등급을 얻는 경향이 있는 다른 상품들임.
    • 예를 들어, 라이언 일병 구하기 \((Saving \, Private \, Ryan)\) 라는 영화를 생각해보겠음.
    • 이 영화의 이웃 중에는 전쟁 영화, 스필버그 영화 그리고 톰 행크스 영화 등이 포함될 것임.
    • 특정한 유저의 \(Saving \, Private \, Ryan\) 등급을 예측하기 위해서, 우리는 이 유저가 실제로 등급을 매긴 영화와 가장 가까운 이웃들을 볼 것임.
  • Figure 1 이 설명한 것처럼, 유저-지향 접근법서로의 등급을 보완할 수 있는, 생각이 비슷한 유저들을 식별함.

2-2. Latent Factor Model (LF)

  • LF 모델등급 패턴에서 추론한 20개 ~ 100개의 Factors에 대해 아이템과 유저 둘을 특징 지어서 등급을 설명하려는 대안법임.
    • 영화의 경우, 발견되는 Factors는 코미디 vs 드라마, 액션의 양, 아이들의 성향 (Orientation) 과 같은 분명한 차원 또는 Character Development 깊이 또는 기묘함 같은 잘 정의되지 않은 차원, 또는 완전히 해석할 수 없는 차원을 측정할 수 있음.
    • 유저의 경우, 각 요인은 유저가 해당되는 영화 요인에서 높은 점수를 받은 영화를 얼마나 좋아하는지를 측정함.
  •  Figure 2는 2차원에서 이 아이디어에 대한 간단한 예시를 보여줌.

  • 여성 지향적 vs 남성 지향적, Serious vs Escapist로 특징 지어지는 가상의 2차원을 생각해보겠음.
    • 위 그림은 일부 유명한 영화들과 가상 유저들이 2차원에서 어디에 위치해 있는지를 보여줌.
    • 이 모델의 경우, 영화의 평균 등급과 비교하여, 영화에 대한 유저의 예상 등급그래프에서 영화와 유저 위치의 내적 (Dot Product) 과 동일할 것임.
  • 예를 들어, 우리는 "Gus""Dumb""Dumber"를 좋아하고, "The Color Purple"를 싫어하며, "Braveheart"를 평균적으로 평가할 것으로 기대함.
  • 그리고, "Ocean's 11""Dave"는 이 2차원에 대해 상당히 중립적인 것으로 특징지어질 것임.

 

Matrix Factorization (MF) Methods

  • 가장 성공적인 LF 모델 구현 중 일부는 MF를 기반으로 함.
  • MF 기본적인 형태아이템 등급 패턴에서 추론된 Factor 벡터들을 이용하여, 아이템과 유저를 특징 지음.
  • 아이템과 유저 Factors 사이의 높은 일치는 추천으로 이어짐.
  • 추천 시스템은 서로 다른 형태의 입력 데이터에 의존함.
    • 한 차원은 유저를 나타내고, 다른 차원은 관심 아이템을 이용한 행렬에 종종 배치됨.

가장 간편한 데이터는 높은 품질의 명시적 피드백 \((Explicit \, Feedback)\) 임.

  • \(Explicit \, Feedback\) 은 상품에 관심이 있는 유저들의 명시적인 Input을 포함함.
  • 예를 들어, 넷플릭스는 영화에 대한 Star 등급을 수집하고, TiVo 유저들은 Thumbs-up & Thumbs-down 버튼을 눌러 TV 쇼에 대한 선호를 나타냄.
  • 우리는 명시적 유저 피드백을 등급 \((Ratings)\) 으로 참조함.
  • 보통, 명시적인 피드백은 Sparse 행렬로 구성됨.
    • 이는 어떤 단일 유저도 모든 아이템이 아닌 아이템 일부에만 등급을 매겼을 것이기 때문임.

MF 강점 중 하나는 추가 정보를 통합할 수 있다는 것임.

  • 명시적 피드백을 사용할 수 없을 때, 추천 시스템은 암시적 피드백 \((Implicit \, Feedback)\) 을 사용하여 유저 선호도를 추론할 수 있음.
    • \(Implicit \, Feedback\) 은 구매 내역, 웹 서핑 내역, 검색 패턴, 또는 심지어 마우스 움직임까지 포함하는 유저 행동을 관찰하여, 간접적으로 의견을 반영하는 것임.
  • 암시적 피드백은 보통 이벤트의 존재 유무를 나타내기 때문에, 일반적으로 빽빽히 채워진 (Densely Filled) 행렬로 나타냄.

 

A Basic Matrix Factorization Model

  • MF 모델은 유저와 아이템을 모두 \(f\) 차원의 공동 LF 공간에 매핑하고, 그러한 유저-아이템 상호작용을 이 공간에 내적을 수행하여 모델링함.
    • 따라서, 각 아이템 \(i\) 는 벡터 \(q_{i} \in \mathbb{R}^{f}\) 와 연관되어 있고, 각 사용자 \(u\) 는 벡터 \(p_{u} \in \mathbb{R}^{f}\) 와 연관되어 있음.
    • 주어진 아이템 \(i\) 의 경우, 벡터 \(q_{i}\) 의 원소들은 아이템이 Positive 또는 Negative Factor를 얼마나 가지는지를 측정함.
    • 주어진 유저 \(u\) 의 경우, 벡터 \(p_{u}\) 의 원소들은 Positive 또는 Negative가 높은 아이템에 대해 얼마나 선호를 가지는지를 측정함.
  • 내적 결과 \(q_{i}^{T} p_{u}\) 은 유저 \(u\) 와 아이템 \(i\) 사이의 상호작용을 포착함.
    • 즉, 아이템 특징에 대한 유저의 전반적인 관심을 나타냄.
    • 이는 \(r_{ui}\) 로 표시된 아이템 \(i\) 에 대한 유저 \(u\) 의 등급을 근사한 것이며, 아래와 같이 추정할 수 있음.

  • 주요 과제는 각 아이템과 유저를 Factor 벡터 \(q_{i}, p_{u} \in \mathbb{R}^{f}\) 로 매핑하는 것임.
    • 추천 시스템이 매핑을 완료한 후, 수식 1 을 사용하여 유저가 어떤 아이템에 매길 등급을 쉽게 추정할 수 있음.
  • 그러한 모델은 특이값 분해 (SVD, \(Singular \, Value \, Decomposition\)) 와 밀접하게 관련이 있음.
    • SVD는 정보 검색에서 잠재 의미 요인을 식별하는 잘 구축된 기법임.
  • CF 도메인에 SVD를 적용하려면, 유저-아이템 등급 행렬을 Factoring하는 것이 필요함.
    • 이는 종종 유저-아이템 등급 행렬Sparseness로 인한 높은 결측치 비율로 인해 어려움이 생김.
  • 전통적인 SVD는 행렬에 대한 Knowledge가 불완전할 때, 정의되지 않음.
    • 게다가, 상대적으로 알려진 갯수가 적은 엔트리만을 부주의하게 다루는 것은 과적합되기 굉장히 쉬움.
    • 이전 시스템은 누락된 등급을 채우고 등급 행렬을 밀도있게 만드는 Imputation에 의존했음.
    • 그러나, Imputation데이터의 양을 상당히 증가시키기 때문에, 비용이 굉장히 많이 들 수 있음.
    • 또한, 정확하지 않은 Imputation은 데이터를 상당히 왜곡시킬 수 있음.
  • 따라서, 최근 연구들은 관찰된 등급만 직접 모델링하는 한편, Regularized 모델을 통해 과적합은 피하도록 제안함.
  • Factor 벡터 \(p_{u}\) & \(q_{i}\) 를 학습하기 위해, 이 시스템은 알고 있는 등급 집합에서 Regularized 제곱 오류를 최소화함 :

  • 파라미터 설명
    • \(\kappa\) : \(r_{ui}\) 로 알려진 \((u,i)\) 집합 (훈련 집합).
  • 이 시스템은 이전에 관찰된 등급을 적합하여, 모델을 학습함.
  • 하지만, 목표는 이러한 이전 시청률미래 즉, 알지 못하는 등급을 예측하는 방식으로 일반화하는 것임.
  • 따라서, 이 시스템은 규모에 패널티를 주는 학습된 파라미터를 Regularized하여, 관찰된 데이터에 과적합 되지 않도록 해야 함.
    • 상수 \(\lambda\) 는 Regularization의 정도를 조절하며, 보통 교차 검증 (Cross-Validation) 으로 결정됨.

 

Learning Algorithms

  • 수식 2를 최소화 하는 두 가지 접근법이 있음 :
    • SGD \((Stochastic \, Gradient \, Descent)\).
    • ALS \((Alternating \, Least \, Squares)\).

(1) Stochastic Gradient Descent (SGD)

  • 주어진 각 훈련 케이스에서, 시스템은 \(r_{ui}\) 를 예측하고, 연관된 예측 에러를 계산함 :

  • 그런 다음, Gradient의 반대 방향으로 \(\gamma\) 크기에 비례하여 파라미터를 조정하고, 다음과 같이 산출함.

  • 이 유명한 접근법은 구현이 쉽고, 비교적 빠른 실행 시간을 가짐.
  • 그러나, 일부 경우에서는, ALS 최적화를 사용하는 것이 이득임.

(2) Alternating Least Squares (ALS)

  • \(q_{i}\) & \(p_{u}\) 둘 다 알 수 없기 때문에, 수식 2는 Convex 하지 않음.
  • 그러나, 우리가 알 수 없는 두 값 중 하나를 고정시키면, 최적화 문제는 이차 (Quadratic) 가 되고, 최적으로 해결될 수 있음.
  • 따라서, ALS 기법은 \(q_{i}\) 고정과 \(p_{u}\) 고정을 번갈아서 진행함.
  • 모든 \(p_{u}\) 가 고정되면, 시스템은 최소 제곱 (Least-Squares) 문제를 해결함으로써, \(q_{i}\) 를 다시 계산하고, 그 반대의 경우도 마찬가지임.
  • 이는 각 단계가 수렴할 때까지, 수식 2를 감소시키는 것을 보장함.

일반적으로, SGD가 ALS 보다 구현이 쉽고 빠르지만, 적어도 두 가지 케이스에서는 ALS가 유리함.

  1. 시스템이 병렬화를 사용할 수 있는 경우임.
    • ALS에서, 시스템은 나머지 아이템 Factors와 독립적으로, 각 \(q_{i}\) 를 계산하고, 나머지 유저 Factors와 독립적으로, 각 \(p_{u}\) 를 계산함.
    • 이는 잠재적으로 알고리즘의 대규모 병렬화를 제공함.
  2. 암시적 데이터를 중심으로 한 시스템들의 경우임.
    • 훈련 집합이 Sparse한 것으로 간주될 수 없기 때문에, Gradient Descent와 같이 각 단일 훈련 케이스를 Looping하는 것은 실용적이지 않을 것임.
    • ALS는 이러한 경우를 효과적으로 다룰 수 있음.

 

Adding Biases

  • MF 접근을 이용한 CF의 장점 중 하나는 다양한 데이터 측면기타 어플리케이션 별 요구사항을 처리할 수 있는 유연함임.
  • 이는 동일한 학습 프레임워크에 머무르는 동안 수식 1의 축적이 필요함.
  • 수식 1은 유저와 아이템 사이에서 서로 다른 등급을 생성하는 상호작용을 포착하려 함.
  • 그러나, 관측 등급의 변동 중 상당 부분은 유저나 아이템과 관련된 효과 (편향 \((Biases)\), 절편 \((Intercepts)\)) 에 기인하며, 어떤 상호작용과는 무관함.
    • 예를 들어, 일반적인 CF 데이터는 다른 유저보다 더 높은 등급을 주는 일부 유저, 그리고 다른 아이템보다 더 높은 등급을 받는 일부 아이템에 대한 커다란 체계적인 경향을 나타냄.
    • 결국, 일부 상품들은 다른 상품들보다 더 좋거나 더 나쁘다고 인식됨.
  • 따라서, \(q_{i}^{T} p_{u}\) 형식의 상호작용으로 전체 등급을 설명하는 것은 현명하지 못함.

대신, 시스템은 개별 유저 또는 아이템 Biases가 설명할 수 있는 값들의 일부분을 식별해서, 데이터의 True 상호작용 부분만을 Factor 모델링에 적용하려고 함.

  • 등급 \(r_{ui}\) 와 연관된 Bias의 1차 (First-order) 근사치는 다음과 같음 :

  • 파라미터 설명
    • \(b_{ui}\) : 등급 \(r_{ui}\) 와 연관된 Bias이며, 유저와 아이템의 영향에 대해 설명함.
    • \(\mu\) : 종합 평균 등급을 나타냄.
    • \(b_{i}\) : 평균적으로 관찰된 아이템 \(i\) 의 편차
    • \(b_{u}\) : 평균적으로 관찰된 유저 \(u\) 의 편차
  • 예를 들어, 당신이 영화 "Titanic" 에 대한 유저 "Joe" 의 1차 추정 등급을 원한다고 가정 해보겠음.
    • 그리고. 현재 모든 영화들의 평균 등급 \(\mu\) 3.7 Star 라고 해보겠음. 
    • 게다가, "Titanic" 은 평균적인 영화들보다 좋기 때문에, 평균보다 0.5 Star 높게 등급이 매겨지는 경향이 있음.
    • 반면에, "Joe" 는 비판적인 유저이며, 평균보다 0.3 Star 낮게 등급을 매기는 경향이 있음.
    • 따라서, "Joe""Titanic" 등급의 추정치는 3.9 Start (3.7 + 0.5 - 0.3) 이 될 것임.
  • Biases는 다음과 같이 수식 1을 확장함 :

  • 여기서 관찰된 등급은 4가지 요소로 나뉘어짐 :
    1. Global Average
    2. Item Bias
    3. User Bias
    4. User-Item Interaction
  • 이를 통해 각 구성 요소는 자신과 관련 있는 신호 부분만 설명할 수 있음.
  • 시스템은 제곱 에러 함수를 최소화하여 학습함 :

  • Biases가 관측된 신호 대부분을 포착하는 경향이 있기 때문에, 정확한 모델링은 필수적임.
  • 따라서, 다른 작업들이 더 정교한 Bias 모델들을 제공함.

 

Additional Input Sources

  • 시스템은 종종 Cold Start 문제를 다뤄야 함.
    • 이는 많은 유저들이 매우 적은 수의 등급을 제공하여, 자신들의 취향에 대한 일반적인 결론에 도달하기 어렵게 만듬.
    • 이 문제를 완화시키는 방법은 유저에 대한 추가 정보 자원들을 통합하는 것임.

추천 시스템은 유저 선호도에 대한 Insight를 얻기 위해 암시적 피드백을 사용할 수 있음.

  • 실제로, 시스템은 사용자의 명시적 평가 제공 의지에 상관없이 행동 정보를 수집할 수 있음.
  • Ratailer는 고객이 제공할 수 있는 등급 외에도, 고객의 구매 또는 검색 기록을 사용하여 고객들의 성향을 파악할 수 있음.
  • 단순하게, Boolean 값인 암시적 피드백이 있는 경우를 고려해 보겠음.
    • \(N(u)\) 는 유저 \(u\) 가 암시적 선호도를 표현한 아이템 집합을 나타냄.
    • 이렇게 하면, 시스템은 유저가 암시적으로 선호한 아이템을 통해 유저를 프로파일링함.
    • 여기서, 새로운 아이템 Factors 집합이 필요하며, 아이템 \(i\) 는 \(x_{i} \, \in \, \mathbb{R}^{f}\) 와 관련됨.
    • 추가적으로, \(N(u)\) 의 아이템에 선호도를 나타낸 유저는 다음과 같은 벡터로 특징 지어짐 :

  • 총합을 Normalizing하는 것이 종종 이점이 됨 (예를 들어, 다음과 같은 식을 가지고).

또 다른 정보 자원은 유저 속성으로 알려져 있는 것임 (예를 들어, 인구 통계).

  • 속성 \(A(u)\) 집합 (성별, 나이별 그룹, 수익 수준, 기타 등등) 에 해당하는 Boolean 유저 \(u\) 속성을 고려해보겠음.
  • 뚜렷한 Factor 벡터 \(y_{a} \, \in \, \mathbb{R}^{f}\) 는 유저-관련 속성 집합을 통해 유저를 설명하는 각 속성에 해당함.

  • MF 모델은 향상된 유저 표현을 가지고, 모든 신호 자원들을 통합해야됨 :

 

Temporal Dynamics

  • 지금까지, 제시된 모델들은 Static한 상태였음.
  • 실제로는, 새로운 선택지들이 등장함에 따라 상품의 인식과 인기는 끊임없이 변화함.
    • 마찬가지로, 고객의 성향도 진화하여, 고객의 취향을 재정의하도록 만듬.

따라서, 시스템은 유저-아이템 상호작용의 동적 (Dynamic) 시간 이동 특성을 반영하는 시간적 영향을 고려해야 함.

  • MF 접근법은 시간적 효과를 모델링하는 데 유용하며, 이는 정확도를 크게 향상시킬 수 있음.
  • 등급을 구별되는 용어 (Distinct Terms) 로 분해하는 것은 시스템이 별도로 서로 다른 시간적 측면을 처리할 수 있게 만듬.
  • 구체적으로, 시간 경과에 따라 다음과 같은 용어가 달라짐 :
    • 아이템 편향 (Biases) : \(b_{i}(t)\)
    • 유저 편향 (Biases) : \(b_{u}(t)\)
    • 유저 선호도 : \(p_{u}(t)\)
  • 시간적 효과는 두 가지가 있음.

(1) 시간이 지남에 따라 아이템 인기가 변화할 수 있다는 사실을 다룸.

  • 예를 들어, 영화들은 배우의 신작 출연 같은 외부 이벤트에 의해 인기가 생기거나 없어질 수 있음.
  • 따라서, 이러한 모델들은 아이템 Bias \(b_{i}\) 를 시간적 함수로 다룸.

(2) 시간이 지남에 따라 유저들은 자신의 Baseline 등급에 변화를 줄 수 있음.

  • 예를 들어, 평균적인 영화에 "4 Stars" 등급을 매기는 경향이 있는 유저는 현재, 그러한 영화에 "3 Stars" 등급을 매길수도 있음.
  • 이는 일부 Factors를 반영한 것일 수도 있으며, Factors는 다음과 같은 것들을 포함함 :
    • 유저 등급 Scale의 자연스러운 이동
    • 유저가 최근 등급과 비교하여 등급을 매기는 것
    • Household 내에서 Rater의 정체성이 시간이 지남에 따라 변화할 수 있다는 것
  • 따라서, 이 모델에서 파라미터 \(b_{u}\) 는 시간적 함수 역할을 함.
  • 시간 역학은 이러한 것들을 뛰어넘는 것임.
    • 시간 역학은 유저 선호도에도 영향을 미치기 때문에, 유저와 아이템 사이의 상호작용에도 영향을 미침.
    • 유저들은 시간에 따라 선호도를 바꿈.
      • 예를 들어, 심리 스릴러 장르 팬이 1년 후에 범죄 드라마 팬이 될 수도 있음.
      • 유사하게, 사람들은 특정 배우와 감독에 대한 인식을 바꿈.
  • 모델은 유저 Factors (벡터 \(p_{u}\)) 를 시간적 함수로 취하여, 이 영향을 설명함.
  • 반면에, 사람과 달리 아이템은 Static 속성이기 때문에, Static 아이템 특징을 \(q_{i}\) 로 명시함.
  • 시간에 따라 변화하는 파라미터의 정확한 파라미터화는 수식 4를 시간 \(t\) 의 등급에 대해 다음과 같은 동적 예측 규칙으로 대체할 수 있게 함 :

 

Inputs with Varying Confidence Levels

  • 일부 구성에서, 관측된 모든 등급들이 동일한 가중치 또는 신뢰도를 가질 수 있는 것은 아님.
    • 예를 들어, 대규모 광고는 장기적 특성을 적절히 반영하지 못하는 특정 아이템의 투표에 영향을 미칠 수 있음.
    • 유사하게, 시스템은 특정 아이템 등급을 한쪽으로 기울게 하려는 적대적인 유저와 직면할 수 있음.
    • 또 다른 예시는 암시적 피드백으로 구축된 시스템임.
    • 유저 행동을 계속 해석하는 그러한 시스템에서, 정확한 유저 선호도 수준을 수량화하여 나타내기는 어려움.
    • 따라서, 시스템은 "상품을 마음에 들어할 것 같다" 또는 "상품에 관심이 없을 것 같다" 를 나타내는 Cruder Binary 표현으로 작동함.
  • 그러한 사례들에서, 추정된 선호도와 신뢰 점수에 의미를 두는 것은 가치가 있음.
  • 신뢰도는 동작 빈도수 (유저가 특정 프로그램을 얼마나 시청했는지, 사용자가 특정 아이템을 얼마나 자주 샀는지) 를 나타내는 사용 가능한 수치적인 값에서 비롯될 수 있음.
    • 이 수치 값들은 각 관측치의 신뢰도를 나타냄.
  • 유저 선호도와 무관한 다양한 Factors는 일회성 사건을 유발할 수 있지만, 반복적인 사건은 사용자 의견을 반영할 가능성이 더 높음.
  • MF 모델은 다양한 신뢰 수준을 쉽게 받아들일 수 있음.
    • 이는 덜 의미있는 관측치에 가중치를 덜 부여함.
  • \(r_{ui}\) 관측치의 신뢰도가 \(c_{ui}\) 로 표시되면, 모델은 다음과 같이 신뢰도를 설명하기 위해, 비용 함수 (수식 5) 를 향상시킴 :

 

Netflix Prize Competition

 

Conclusion

  • MF 기법은 CF 추천 내에서 지배적인 방법론이 되었음.
  • Netflix Prize Data 같은 Dataset을 이용한 경험에 따르면, MF 기법이 전통적인 NN 기법보다 뛰어난 정확도를 제공한다는 것을 보여줬음.
  • 동시에, 시스템이 상대적으로 쉽게 학습할 수 있는 Compact한 메모리-효율적인 모델을 제공함.
  • 이러한 기법들을 더 간편하게 만들어 주는 것은 모델이 자연스럽게 데이터의 많은 중요한 측면들을 통합할 수 있다는 것임.
    • 많은 형식의 피드백들 (Multiple Forms of Feedback)
    • 시간적 역학 (Temporal Dynamics)
    • 신뢰도 수준 (Confidence Level)

 

Reference

반응형
댓글
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
more
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함