-
[Machine Learning] 분류의 성능 평가 지표(Evaluation Metrics of Classification)Informatik 2022. 2. 22. 02:35
※ [Machine Learning] 베이즈 결정 이론(Bayesian Decision Theory)
※ [Machine Learning] 나이브 베이즈 분류(Naïve Bayes Classification)
이진 분류에서의 혼동 행렬(Confusion Matrix)
Ground Truth Positive Negative Prediction Positive tp(True Positive) fp(False Positive) tp + fp Negative fn(False Negative) tn(True Negative) fn + tn tp + fn fp + tn tp + fp + fn + tn 오류율(Error Rate)
$$\text{Error Rate} = \frac {\text{Number of misclassified test examples}}{\text{Number of all test examples}}$$
정확도(Accuracy)
$$\text{Accuracy} = 1 - \text{Error Rate} = \frac {tp + tn }{tp + fp + fn + tn}$$
예를 들어, 트위터에서 봇을 감지하는 모델을 만든다고 하자. 모든 트윗 중 99%가 인간, 1%가 봇이라고 할 때, 항상 인간으로 감지하는 간단한 분류기를 사용한다고 가정하자. 이때, 1%로 잘못 분류할 수 있기 때문에 정확도는 99%이다. 이처럼 불균형한 사전 확률(Prior Probability)로 정확도로 모델 자체를 평가할 수 없기에 다른 평가 지표까지 살펴 볼 필요가 있다.
정밀도(Precision)
참으로 예측한 것 중 실제로 참일 확률을 정밀도로 정의한다.
$$\text {Precision} = \frac {tp}{tp + fp}$$
※ 예) 모든 스팸 폴더 안에 들어 있는 실제 스팸 메일의 비율.
재현율(Recall)
실제 참인 것 중에 참으로 예측한 확률을 재현율로 정의한다.
$$\text{Recall} = \frac {tp}{tp + fn}$$
※ 예) 실제 스팸 메일 중에서 스팸 폴더 안에 있는 실제 스팸 메일의 비율.
F-스코어(F-score)
F-스코어는 정밀도와 재현율을 포함한 통계 지표이다. $\beta$는 정밀도의 중요성을 결정한다.
$$\text{F-measure} = (1 + \beta^2) \cdot \frac {\text{precision} \cdot \text{recall}}{\beta^2 \cdot \text{precision} + \text{recall}}$$- $\beta > 1$: 정밀도가 재현율보다 더 중요하다.
- $\beta < 1$: 재현율이 정밀도보다 더 중요하다.
- $\beta = 1$: 표준의 값으로 쓰이며, F1-스코어(F1-score)라고도 한다.
멀티 클래스 분류의 성능 평가
3개 이상의 클래스를 분류하는 모델은 어떻게 평가할까? 지금까지 배워왔던 통계들을 사용해서 모든 경우의 클래스를 평균화하는 방법을 사용하는데, 크게는 두 가지 범주가 있다.
매크로 평균(Macroaveraging)
각 클래스의 평가 지표를 계산 후에 모든 클래스에 대한 평균 값을 낸다.
마이크로 평균(Microaveraging)
모든 클래스에 대한 결과를 하나의 혼동 행렬로 정리한 후, 평가 지표를 계산한다.
1. Richard O. Duda, Peter E. Hart, and David G. Stork. 2000. Pattern Classification (2nd Edition). Wiley-Interscience, USA.
2. Müller, K.R., Montavon, G. (2021). Lecture on Machine Learning 1-X. Technische Universität Berlin, Berlin, Germany.
3. Lommatzsch, A. (2021). Lecture on Foundations of Data Science. Technische Universität Berlin, Berlin, Germany.반응형'Informatik' 카테고리의 다른 글