Blog Image

Per ardua ad astra.

"Hello, World!" 🤖

250x250

📅

D-Day

Microsoft Student (2023)👨🏻‍💻

Artificial Intelligence/Data Science

[Data Science] 혼동 행렬(Confusion Matrix, 정오 행렬)

2023. 8. 18. 14:19

728x90

혼동 행렬(Confusion Matrix, 정오 행렬)

개념

분석 모델에서 구한 분류의 예측 범주와 데이터의 실제 범주를 교차 표(Cross Table) 형태로 정리한 행렬
혼동 행렬을 작성함에 따라 모델의 성능을 평가할 수 있는 평가 지표(Metric)가 도출된다.
모델의 정확도를 예측값과 실제값의 일치 빈도를 통해 평가할 수 있다.
이진 분류(참, 거짓과 같은 분류)에서 성능 지표로 혼동 행렬을 많이 사용한다.

		예측 범주 값(Predicted Condition)
		Predicted Positive	Predicted Negative
실제 범주 값 (Actual Condition)	Actual Positive	True Positive(TP)	False Negative(FN)
실제 범주 값 (Actual Condition)	Actual Negative	False Positive(FP)	True Negative(TN)

각 행에 P, N을 적는다.		▶	각행에 T, F를 교차로 적는다.
P	N		TP	FN
P	N		FP	TN

구분	분류 값	설명	비고
예측이 정확한 경우	TP(True Positive)	실제값이 Positive이고, 예측값도 Positive인 경우	■■ ■■
예측이 정확한 경우	TN(True Negative)	실제값이 Negative이고, 예측값도 Negative인 경우	■■ ■■
예측이 틀린 경우	FP(False Positive)	실제값은 Negative이었으나, 예측값은 Positive인 경우	■■ ■■
예측이 틀린 경우	FN(False Negative)	실제값은 Positive이었으나, 예측값은 Negative인 경우	■■ ■■

혼동 행렬을 통한 분류 모형의 평가 지표

혼동 행렬로부터 계산될 수 있는 평가 지표는 정확도, 오차 비율, 민감도 등이 있고, 그중에서 정확도, 민감도, 정밀도는 많이 사용되는 지표이다.

평가 지표	계산식	설명
정확도 (Accuracy) =정 분류율	$$\frac{TP+TN}{TP+TN+FP+FN}$$	- 실제 분류 범주를 정확하게 예측한 비율 - 전체 예측에서 참 긍정(TP)과 참 부정(TN)이 차지하는 비율	■■ ■■
오차 비율 (Error Rate)	$$\frac{FP+FN}{TP+TN+FP+FN}$$	- 실제 분류 범주를 잘못 분류한 비율 - (오차 비율) = 1 - (정확도)	■■ ■■
참 긍정률(TP Rate) =재현율(Recall) =민감도(Sensitivity)	$$\frac{TP}{TP+FN}$$	- 실제로 '긍정'인 범주 중에서 '긍정'으로 올바르게 예측(TP)한 비율 - Hit Rate로도 지칭	■■ ■■
특이도 (Specificity)	$$\frac{TN}{TN+FP}$$	- 실제로 '부정'인 범주 중에서 '부정'으로 올바르게 예측(TN)한 비율	■■ ■■
거짓 긍정률 (FP Rate)	$$\frac{FP}{TN+FP}$$	- 실제로 '부정'인 범주 중에서 '긍정'으로 잘못 예측(FP)한 비율 - (거짓 긍정률) = 1 - (특이도)	■■ ■■
정밀도 (Precision)	$$\frac{TP}{TP+FP}$$	- '긍정'으로 예측한 비율 중에서 실제로 '긍정(TP)'인 비율	■■ ■■
F1 지표 (F1-Score)	$$2 \times \frac{\text{Precision×Recall}}{\text{Precision+Recall}}$$	- 정밀도와 민감도(재현율)를 하나로 합한 성능 평가 지표 - 0~1의 범위를 가짐. - 정밀도와 민감도 양쪽이 모두 클 때 F1 지표도 큰 값을 가짐.	$$2 \times \frac{PR}{P+R}$$
카파 통계량 (Kappa Statistic)	$$K = \frac{Pr(a) - Pr(e)}{1 - Pr(e)}$$ $K$ : 카파 상관 계수 $Pr(a)$ : 예측이 일치할 확률 $Pr(e)$ : 예측이 우연히 일치할 확률	- 두 관찰자가 측정한 범주 값에 대한 일치도를 측정하는 방법 - 0~1 사이의 값을 가지며, @1@에 가까울수록 모델의 예측값과 실젯값이 정확히 일치하며, @0@에 가까울수록 모델의 예측값과 실제값이 불일치 - 정확도 외에 카파 통계량을 통해 모형의 평가 결과가 우연히 나온 결과가 아니라는 것을 설명

728x90

저작자표시 비영리 변경금지

'Artificial Intelligence > Data Science' 카테고리의 다른 글

[Data Science] 대상별 분석 기획 유형 (0)	2023.08.02
[Data Science] 데이터 비식별화(Data De-Identification) (0)	2023.07.29
[Data Science] 데이터의 유형 (0)	2023.06.29

Powered by Tistory, Designed by 👨🏻‍🚀adastra

티스토리툴바