Overfitting의 문제와 해결 방안 Sample 데이터가 제한되어 있을 경우, 복잡한 모델을 이용할수록 MLE의 추정 값이 상대적으로 Overfitting 되는 경향을 가진다. 이를 해결하기 위해서 적합(fitting)되는 해(β)에 일정한 패널티(penalty)를 부과하여 모델의 Overfitting을 방지할 수 있다. λ는 penalty의 영향력을 결정하는 hyper parameter이다. 일반적으로 λ를 크게 할수록 penalty가 커져 β는 0에 가까워지며 적합(fitting)되는 해(β)의 variance를 감소시킨다. Shrinkage Method 변수들 중 일부를 선택하여 적합시키는 것이 아닌 모든 변수들을 사용하여 모델에 적합하되 변수의 계수를 0 또는 0에 가깝게 만든다. 결국 추정..
Random Forest란? Decision Tree를 여러 개 만든 다음 앙상블 (Ensemble) 하여 학습성능을 높이는 방법이다. 이름에서 보이듯이 Tree를 여러 개 만들기 때문에 Forest란 이름이 붙여졌다. Random Forest 과정 Random Forest 과정은 Decision Tree에서 몇가지 더 추가됐다. Decision Tree를 여러 개 만드는 것이기 때문에 추가된 과정들을 설명한다. Bagging을 사용하여 BootStrap을 만든다. BootStrap을 이용하여 Decision Tree를 학습시킨 후 예측을 수행한다. 1, 2 번을 충분히 반복하여 여러 개의 Decision Tree에 대한 예측을 모은다. 회귀트리의 경우 모인 예측들에 평균 (Average) 을 취하고, ..
편향 (Bias) : 예측이 정답에서 얼마나 떨어져 있는지를 반영한다. 분산 (Variance) : 예측의 변동폭이 얼마나 큰지를 반영한다. 모델을 선택할 때, training data에 대해 적절히 잘 훈련되어야 하며, 새로운 데이터에 대해서 일반화 (Generalization) 까지 하는 것이 가장 이상적이라 할 수 있다. 하지만 이 둘을 동시에 달성하는 것은 거의 불가능하다. 전체 에러 수식을 보면 다음과 같다. 첫 번째 δ ^2은 절대 줄일 수 없는 오차, 두 번째는 분산, 세 번째는 편향이다. 모델 학습은 전체 에러를 낮추는 방향으로 진행 되기 때문에 전체 에러가 주어질 경우, 분산과 편향사이에 트레이드 오프가 일어나게 된다. 고분산 학습 알고리즘의 경우 training data를 잘 표현하지만..
Decision Tree 란? 의사결정 규칙을 나무구조로 나타내어 분류 및 예측을 수행하는 분석방법이다. 이 방법은 분류 또는 예측이 나무구조에 의한 추론에 의해서 표현되기 때문에 다른 방법들에 비해 쉽게 이해가 가능하다. 그림을 통해 노드들을 간단하게 설명하면 다음과 같다. 한 번에 하나씩의 설명변수를 사용하여 정확한 예측이 가능한 규칙들의 집합을 생성한다. Root Node : 트리 구조 중 가장 맨 위에 있는 노드 ( '남자인가?' ) Leaf Node, Terminal Node : 자식 노드가 없는 가장 맨끝에 있는 노드 (사망, 생존) Internal Node : 루트 노드와 터미널 노드를 제외한 노드 ( '(나이 > 9.5)인가?', '(sibsp > 2.5)인가?' ) 그렇다면 어떤 순서로 ..
Abstract 다음과 같이 독립변수가 p개인 다중 선형 회귀 식이 있다. 선형 회귀는 종속변수 y가 연속형이며, 아파트 가격을 예측 하는 것이 하나의 예시가 될 수 있을 것이다. 선형 회귀는 독립변수 x와 종속변수 y의 관계가 선형이라고 가정하고, 이를 가장 잘 설명하는 회귀계수들을 데이터로부터 추정하는 모델이다. 선형 회귀의 그래프를 그려보면 아래와 같다. 하지만, 종속변수 y가 범주형 변수라면, 어떻게 될까? 타이타닉 데이터를 예로 들었을 때, 왼쪽그림과 같은 경우 0 = 사망, 1 = 생존 인데 선형 회귀로는 잘 설명하지 못한다. 선형 회귀의 경우 숫자가 의미 있지만 방금과 같은 경우에서 숫자는 의미가 없다. 생존 - 생존 = 사망 이라는 식이 말이 안된다는 이야기다.이러한 사례 때문에 오른쪽 그..
모델 평가 방법 좋은 모델을 만들려면 어떤 모델이 좋은 것인가부터 정해야 한다. 평가 메트릭 (Metric) Y, N 두 종류 클래스를 분류한다고 해보자. 분류 모델에서의 모델 평가 메트릭 (Metric) 은 아래의 두 값의 발생 빈도를 나열한 혼동 행렬으로 부터 계산한다. 모델에서 구한 분류의 예측값 데이터의 실제 분류인 실제 값 혼동행렬(Confusion Matrix) 혼동 행렬의 각 셀에 붙은 이름은 아래 설명과 같다. True & False : 예측이 정확했는지를 뜻한다. Positive & Negative : 모델을 통해 예측한 값을 의미한다. 예를 들어, True Positive (TP) 는 예측이 정확했고 (True), 이때 예측값은 Positive (즉, Y) 였음을 뜻한다. 또 다른 예로..