728x90
728x90
혼동 행렬(Confusion Matrix, 정오 행렬)
개념
- 분석 모델에서 구한 분류의 예측 범주와 데이터의 실제 범주를 교차 표(Cross Table) 형태로 정리한 행렬
- 혼동 행렬을 작성함에 따라 모델의 성능을 평가할 수 있는 평가 지표(Metric)가 도출된다.
- 모델의 정확도를 예측값과 실제값의 일치 빈도를 통해 평가할 수 있다.
- 이진 분류(참, 거짓과 같은 분류)에서 성능 지표로 혼동 행렬을 많이 사용한다.
예측 범주 값(Predicted Condition) | |||
Predicted Positive | Predicted Negative | ||
실제 범주 값 (Actual Condition) |
Actual Positive | True Positive(TP) | False Negative(FN) |
Actual Negative | False Positive(FP) | True Negative(TN) |
각 행에 P, N을 적는다. | ▶ | 각행에 T, F를 교차로 적는다. | ||
P | N | TP | FN | |
P | N | FP | TN |
구분 | 분류 값 | 설명 | 비고 |
예측이 정확한 경우 | TP(True Positive) | 실제값이 Positive이고, 예측값도 Positive인 경우 | ■■ ■■ |
TN(True Negative) | 실제값이 Negative이고, 예측값도 Negative인 경우 | ■■ ■■ |
|
예측이 틀린 경우 | FP(False Positive) | 실제값은 Negative이었으나, 예측값은 Positive인 경우 | ■■ ■■ |
FN(False Negative) | 실제값은 Positive이었으나, 예측값은 Negative인 경우 | ■■ ■■ |
혼동 행렬을 통한 분류 모형의 평가 지표
- 혼동 행렬로부터 계산될 수 있는 평가 지표는 정확도, 오차 비율, 민감도 등이 있고, 그중에서 정확도, 민감도, 정밀도는 많이 사용되는 지표이다.
평가 지표 | 계산식 | 설명 | |
정확도 (Accuracy) =정 분류율 |
$$\frac{TP+TN}{TP+TN+FP+FN}$$ | - 실제 분류 범주를 정확하게 예측한 비율 - 전체 예측에서 참 긍정(TP)과 참 부정(TN)이 차지하는 비율 |
■■ ■■ |
오차 비율 (Error Rate) |
$$\frac{FP+FN}{TP+TN+FP+FN}$$ | - 실제 분류 범주를 잘못 분류한 비율 - (오차 비율) = 1 - (정확도) |
■■ ■■ |
참 긍정률(TP Rate) =재현율(Recall) =민감도(Sensitivity) |
$$\frac{TP}{TP+FN}$$ | - 실제로 '긍정'인 범주 중에서 '긍정'으로 올바르게 예측(TP)한 비율 - Hit Rate로도 지칭 |
■■ ■■ |
특이도 (Specificity) |
$$\frac{TN}{TN+FP}$$ | - 실제로 '부정'인 범주 중에서 '부정'으로 올바르게 예측(TN)한 비율 | ■■ ■■ |
거짓 긍정률 (FP Rate) |
$$\frac{FP}{TN+FP}$$ | - 실제로 '부정'인 범주 중에서 '긍정'으로 잘못 예측(FP)한 비율 - (거짓 긍정률) = 1 - (특이도) |
■■ ■■ |
정밀도 (Precision) |
$$\frac{TP}{TP+FP}$$ | - '긍정'으로 예측한 비율 중에서 실제로 '긍정(TP)'인 비율 | ■■ ■■ |
F1 지표 (F1-Score) |
$$2 \times \frac{\text{Precision×Recall}}{\text{Precision+Recall}}$$ | - 정밀도와 민감도(재현율)를 하나로 합한 성능 평가 지표 - 0~1의 범위를 가짐. - 정밀도와 민감도 양쪽이 모두 클 때 F1 지표도 큰 값을 가짐. |
$$2 \times \frac{PR}{P+R}$$ |
카파 통계량 (Kappa Statistic) |
$$K = \frac{Pr(a) - Pr(e)}{1 - Pr(e)}$$ $K$ : 카파 상관 계수 $Pr(a)$ : 예측이 일치할 확률 $Pr(e)$ : 예측이 우연히 일치할 확률 |
- 두 관찰자가 측정한 범주 값에 대한 일치도를 측정하는 방법 - 0~1 사이의 값을 가지며, @1@에 가까울수록 모델의 예측값과 실젯값이 정확히 일치하며, @0@에 가까울수록 모델의 예측값과 실제값이 불일치 - 정확도 외에 카파 통계량을 통해 모형의 평가 결과가 우연히 나온 결과가 아니라는 것을 설명 |
728x90
728x90
'Artificial Intelligence > Data Science' 카테고리의 다른 글
[Data Science] 대상별 분석 기획 유형 (0) | 2023.08.02 |
---|---|
[Data Science] 데이터 비식별화(Data De-Identification) (0) | 2023.07.29 |
[Data Science] 데이터의 유형 (0) | 2023.06.29 |