AI 기초 수학 정리 공책_05 조건부확률과 F1-score

티스토리 뷰

AI_Math

AI 기초 수학 정리 공책_05 조건부확률과 F1-score

이나기꺼 2021. 1. 10. 01:30

1. 들어가며

결정트리기반 알고리즘을 통해서 분류를 하고 이 결과에 대한 분석을 합니다. 분석은 수치로 표현이 되고 이 값들에 대한 빠른 이해가 필요하기도 합니다. 많이 사용되는 결과 수치로는 정확도(accuracy), 정밀도(precision), 재현율(recall), F1-score, ROC AUC 등이 있습니다. 조건부 확률을 기반으로 이 부분을 간략하게 설명드리겠습니다.

이 용어들에 대한 설명 전에 미리 학습해야 되는 부분이 있기에 그것을 먼저 짚어보겠습니다.

수열(Sequence)이란 수를 나열한 것입니다. 수학에서 다루는 수열은 일정한 규칙을 가지고 나열된 수를 의미합니다. 대표적인 수열 세 가지만 간단하게 언급하겠습니다. 수열은 규칙이 있기에 두 가지 값을 알면 수열의 규칙을 찾을 수 있습니다. 특정한 한 개의 수(‘항’이라 합니다, 일반적으로 첫 번째 항이 중요합니다)와 규칙입니다.

1) 등차, 조화, 등비수열

등차수열 : 각 항에 일정한 값(공차 : d)이 더해져 나열된 수열을 말합니다. 수열 전체는 $\{a_n\}$로, 수열의 일반항은 $a_n$으로 표기합니다. 등차수열을 표현해 보겠습니다. 첫 번째 항은 $a_1 = a$입니다.

$\{a_n\} : a , \ a + d, \ a + 2d, \dotsb , \ a + (n-1)d$

$a_n = a + (n-1)d$

$a_{n+1} = a_n + d$

예) $\{a_n\} : 1, \ 3, \ 5, \dotsb, \ 2n -1$

조화수열 : 각 항별로 역수를 취한 값이 등차수열일 때, 이 수열을 조화수열이라 합니다.

예) $\{a_n\} : 12 , \ 6, \ 4, \ 3 , \dotsb$

이 수열의 각 항별 역수

$\{\cfrac{1}{a_n} \} : \cfrac{1}{12}, \ \cfrac{2}{12}, \ \cfrac{3}{12}, \ \cfrac{4}{12}, \dotsb$

등비수열 : 각 항에 일정한 값(공비 : r)이 곱해져 나열된 수열을 말합니다.

$\{a_n\} : a , \ a \times r, \ a \times r^2, \dotsb , \ a \times r^{n-1}$

$a_n = a \times r^{n-1}$

$a_{n+1} = a_n \times r$

예) $\{a_n\} : 1, \ 2, \ 4, \dotsb, \ 1024$

2) 등차, 조화, 등비중항

$a, \ b, \ c$가 등차수열 : $b = a + d, \ c = a + 2d$

$\ \ 2b = a + c$

$b = \cfrac{a+c}{2}$ : 등차중항(산술평균)

$a, \ b, \ c$가 조화수열 : $\cfrac{1}{a},\ \cfrac{1}{b},\ \cfrac{1}{c}$는 등차수열

$\ \ 2 \times \cfrac{1}{b} = \cfrac{1}{a} + \cfrac{1}{c}$

이 식을 정리하면

$b = \cfrac{2ac}{a+c}$ : 조화중항(조화평균)

$a, \ b, \ c$가 등비수열 : $b = ar$, $c = ar^2$

$\ \ b^2 = ac$

$b = \sqrt{ac}$ : 등비중항(기하평균)

$a>0, b>0$인 두 수에 대하여 다음 부등식이 성립합니다.

$\ \cfrac{a+b}{2} \geq \sqrt{ab} \geq \cfrac{2ab}{a+b}$

단, 등호는 $a=b$

이 부등식은 절대부등식으로 항상 성립하는 식입니다. 부등식은 최댓값이나 최솟값을 구할 때도 이용되는 식이기에 수학을 배우는 학생들에게는 아주 중요한 식입니다. 특히 산술평균과 기하평균의 관계에서 최댓값이나 최솟값을 구할 때 많이 사용합니다. 이를 좀더 확장해서 표현해보겠습니다.

$\ \cfrac{a_1 + a_2 + \dotsb + a_n}{n} \geq \sqrt[n]{a_1 a_2 \dotsb a_n}$

단, 등호는 $a_1 = a_2 = \dotsb = a_n$

예제) $x>0$일 때 다음 식의 최솟값을 구하시오.

$x + \cfrac{4}{x} + \cfrac{x}{x^2 + 4}$

2. 정확도, 정밀도, 재현율

		예측 클래스 (Predicted Class)
		Negative(0)	Positive(1)
실제 클래스 (Actual Class)	Negative(0)	TN (True Negative)	FP (False Positive)
실제 클래스 (Actual Class)	Positive(1)	FN (False Negative)	TP (True Positive)

정밀도 $= \cfrac{TP}{FP+TF}$
재현율 $= \cfrac{TP}{FN+TP}$
정확도 $= \cfrac{TN + TP}{TN+FP+FN+TP}$

이렇게 해서 외우니 너무 힘이 듭니다. 그래서 지난 시간에 언급했던 조건부 확률로 쉽게 풀어보겠습니다. 머신러닝으로 신용카드 불법 사용을 찾아내는 과정으로 설명드리겠습니다.

사건 $A$ : 실제 신용카드를 불법으로 사용한 사건
사건 $A^c$ : 실제 신용카드를 적법하게 사용한 사건
사건 $B$ : 신용카드를 불법으로 사용했다고 판단한 사건(AI의 판단)
사건 $B^c$ : 신용카드를 적법하게 사용했다고 판단한 사건(AI의 판단)

	사건 $B^c$ 적법 사용이라 판단	사건 $B$ 불법 사용이라 판단
사건 $A^c$ 적법 사용	$A^c \cap B^c$ 적법사용 / 적법판단	$A^c \cap B$ 적법사용 / 불법판단
사건 $A$ 불법 사용	$A \cap B^c$ 불법사용 / 적법판단	$A \cap B$ 불법사용 / 불법판단

$P(A) = P(A \cap B^c) + P(A \cap B)$

$P(B) = P(A^c \cap B) + P(A \cap B)$

정밀도(precision) : precision은 ‘정확’하다는 것입니다. 다시 말해 AI의 판단의 정확도를 보는 것입니다. AI가 신용카드가 사용이 불법($B$)으로 봤는데 실제 불법으로 사용했을 확률입니다. 다시 말해 $P(A|B) = \cfrac{P(A \cap B)}{P(B)}$ 입니다.

재현율(recall) : 이 값은 말로 먼저 표현하고 식을 쓰겠습니다. 자동차의 부품불량으로 불량인 차가 최종 품질 검사에서 통과해서 시중에 판매되었다면, 즉 실제 불량인 차량인데 정상적인 차량으로 판단되어 판매가 된 것입니다. 회사는 리콜(recall : 무상수리조치)을 해야하는 것입니다. 차가 불량인데 불량이라고 인증했을 확률이니 바로 최종 품질 검사에서 확인되어 출고되지 못한 것을 의미합니다. 리콜 대상 차량이지만 품질검사에서 불합격 판정을 받아 출고되지 못했을 확률인 것입니다.

$P(B|A) = \cfrac{P(A \cap B)}{P(A)}$

이 경우와 관련있습니다. 바로 실제로 신용카드 불법사용인데 불법사용이라고 판단할 확률인 것입니다. 정밀도든 재현율이든 분자는 모두 같습니다. 조금만 주의깊게 살피면 쉽게 이해될 것입니다.

3. F1 score, ROC AUC

$F1 score = \cfrac{2}{\cfrac{1}{재현율} + \cfrac{1}{정밀도}} = \cfrac{2 \times 재현율 \times 정밀도}{재현율 + 정밀도}$

F1 score는 재현율과 정밀도의 조화평균 값입니다. 정밀도와 재현율을 결합한 지표입니다. 이 수치는 간단히 마치겠습니다.

ROC(Receiver Operation Curve) : 수신자 판단 곡선

TNR(True Negative Rate, 특이성) $= \cfrac{TN}{FP+TN} = 1 - FPR$
x축을 FPR(False Positive Rate) : $\cfrac{FP}{FP+TN} = 1 - TNR$
y축을 TPR(True Positive Rate, 민감도) : $\cfrac{TP}{FN+TP}$, 재현율

ROC AUC(Area Under Curve) : ROC 곡선 밑의 면적, 1에 가까울수록 좋음

이 지표까지 알고 있어야 결과에 대한 좀더 정확한 평가가 될 것입니다.

4. 마치며

오늘 설명한 수치들이 벌써 Iris 분류 코딩에서 사용되었습니다. 제가 조금만 더 서둘렀다면 하는 아쉬움이 남습니다. 다음 주 Linear Classifier에서는 행렬의 곱셈이 나오기 시작하는데, 전 통계를 먼저 마무리하고 행렬을 진행할 예정이어서 조금 뒤따라 가야할 것 같습니다. 학습에 대한 복습을 하신다고 생각해 주십시오.

다음 글은 전확률 정리와 베이즈 정리에 대해 설명하고 독립시행의 확률은 조금만 언급하겠습니다. 모두 열공하는 모습에 저도 자극을 받게 됩니다.

그리고 수열은 너무 방대한 분량입니다. 수열을 다룬다면 최소 8개 정도의 글을 올려야 가능하기에 원래 계획한 것을 마무리하면 순차적으로 조금씩 진행하겠습니다.

마크다운 수업 덕에 수식입력도 가능해졌습니다. 아직 익숙지 않아 좀 느립니다. 수식과 공책에 적으면서 설명하는 것을 병행하도록 하겠습니다. 모두 즐거운 일요일 보내십시오.

저작자표시 비영리 변경금지

'AI_Math' 카테고리의 다른 글

AI 기초 수학 정리 공책_07 통계 기초 (2)	2021.01.16
AI 기초 수학 정리 공책_06 전확률 정리 / 베이즈 정리 (0)	2021.01.10
AI 기초 수학 정리 공책_04 확률의 곱셈정리 (5)	2021.01.07
AI 기초 수학 정리 공책_03 확률기초 (0)	2021.01.06
AI 기초 수학 정리 공책_02 경우의 수 (1)	2021.01.03

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

글 보관함

이나기 놀이터

티스토리 뷰