sklearn - confusion_matrix() | 관성을 이기는 데이터

sklearn.metrics.confusion_matrix

reference :

Document

sklearn.metrics.confusion_matrix(y_true, y_pred, *, labels=None, sample_weight=None, normalize=None)

사용 예시

from sklearn.metrics import confusion_matrix
y_true = [2, 0, 2, 2, 0, 1]
y_pred = [0, 0, 2, 2, 0, 2]
confusion_matrix(y_true, y_pred)

array([[2, 0, 0],
       [0, 0, 1],
       [1, 0, 2]])

해석해보면,

클래스012

위 표가 pandas DataFrame이고, Column은 예측 클래스(y_pred), Index는 정답 클래스(y_true)라고 해보자. 이제 빈 공간(value)은 예측 클래스와 정답 클래스가 일치한다면 1씩 채워지게 된다.

클래스012

즉,

를 의미한다.

마찬가지로 이진분류의 경우도 생각해볼 수 있다.

클래스FalseTrue


False
True

(맞다, 아니다), (양성, 음성), (정상, 불량) 등 많은 곳에 활용되는 이진분류는 위 표와 같이 표현할 수 있다. 다중 분류와 마찬가지로 Column은 예측 클래스, Index는 정답 클래스다.

y_true = [1, 0, 1, 1, 0, 1]
y_pred = [0, 0, 1, 1, 0, 1]
confusion_matrix(y_true, y_pred)

array([[2, 0],
       [1, 3]])

표를 통해 아래와 같이 표현할 수 있다.

클래스FalseTrue


False	2	0
True	1	3

해석하면,

여기서, 양성(True) 값을 제대로 발견하지 못한 경우가 1번 있었고 이런 부분들이 모델의 정확도(Accuracy)를 떨어뜨린다.

관성을 이기는 데이터

저작자표시 (새창열림)