728x90

혼동 행렬(Confusion Matrix, 정오 행렬)

개념

  • 분석 모델에서 구한 분류의 예측 범주데이터의 실제 범주교차 표(Cross Table) 형태로 정리한 행렬
  • 혼동 행렬을 작성함에 따라 모델의 성능을 평가할 수 있는 평가 지표(Metric)가 도출된다.
  • 모델의 정확도를 예측값실제값의 일치 빈도를 통해 평가할 수 있다.
  • 이진 분류(참, 거짓과 같은 분류)에서 성능 지표로 혼동 행렬을 많이 사용한다.
  예측 범주 값(Predicted Condition)
Predicted Positive Predicted Negative
실제 범주 값
(Actual Condition)
Actual Positive True Positive(TP) False Negative(FN)
Actual Negative False Positive(FP) True Negative(TN)
각 행에 P, N을 적는다.  각행에 T, F를 교차로 적는다.
P N TP FN
P N FP TN

 

구분 분류 값 설명 비고
예측정확한 경우 TP(True Positive) 실제값이 Positive이고, 예측값도 Positive인 경우
■■
TN(True Negative) 실제값이 Negative이고, 예측값도 Negative인 경우 ■■
예측틀린 경우 FP(False Positive) 실제값은 Negative이었으나, 예측값은 Positive인 경우 ■■
FN(False Negative) 실제값은 Positive이었으나, 예측값은 Negative인 경우
■■

 

혼동 행렬을 통한 분류 모형의 평가 지표

  • 혼동 행렬로부터 계산될 수 있는 평가 지표는 정확도, 오차 비율, 민감도 등이 있고, 그중에서 정확도, 민감도, 정밀도는 많이 사용되는 지표이다.
평가 지표 계산식 설명  
정확도
(Accuracy)
=정 분류율
$$\frac{TP+TN}{TP+TN+FP+FN}$$ - 실제 분류 범주를 정확하게 예측한 비율
- 전체 예측에서 참 긍정(TP)참 부정(TN)이 차지하는 비율

오차 비율
(Error Rate)
$$\frac{FP+FN}{TP+TN+FP+FN}$$ - 실제 분류 범주를 잘못 분류한 비율
- (오차 비율) = 1 - (정확도)

긍정률(TP Rate)
=현율(Recall)
=감도(Sensitivity)
$$\frac{TP}{TP+FN}$$ - 실제로 '긍정'인 범주 중에서 '긍정'으로 올바르게 예측(TP)한 비율
- Hit Rate로도 지칭

■■
특이도
(Specificity)
$$\frac{TN}{TN+FP}$$ - 실제로 '부정'인 범주 중에서 '부정'으로 올바르게 예측(TN)한 비율 ■■
거짓 긍정률
(FP Rate)
$$\frac{FP}{TN+FP}$$ - 실제로 '부정'인 범주 중에서 '긍정'으로 잘못 예측(FP)한 비율
- (거짓 긍정률) = 1 - (특이도)
■■
정밀도
(Precision)
$$\frac{TP}{TP+FP}$$ - '긍정'으로 예측한 비율 중에서 실제로 '긍정(TP)'인 비율
F1 지표
(F1-Score)
$$2 \times \frac{\text{Precision×Recall}}{\text{Precision+Recall}}$$ - 정밀도민감도(재현율)를 하나로 합한 성능 평가 지표
- 0~1의 범위를 가짐.
- 정밀도민감도 양쪽이 모두 클 때 F1 지표도 큰 값을 가짐.
$$2 \times \frac{PR}{P+R}$$
카파 통계량
(Kappa Statistic)
$$K = \frac{Pr(a) - Pr(e)}{1 - Pr(e)}$$
$K$ : 카파 상관 계수
$Pr(a)$ : 예측이 일치할 확률
$Pr(e)$ : 예측이 우연히 일치할 확률
- 두 관찰자가 측정한 범주 값에 대한 일치도를 측정하는 방법
- 0~1 사이의 값을 가지며, @1@에 가까울수록 모델의 예측값과 실젯값이 정확히 일치하며, @0@에 가까울수록 모델의 예측값과 실제값이 불일치
- 정확도 외에 카파 통계량을 통해 모형의 평가 결과가 우연히 나온 결과가 아니라는 것을 설명
 
728x90