확률

 

변동성·안정성 지표

변동계수(CV)
\(\mathrm{CV}=\frac{s}{\bar x}\)

  • 목적: 평균 크기 차이를 보정해 상대적 변동성 비교(재현성/안정성 평가).
  • 스케일 변화 $x\to a x$에 불변 ($s\to a s,\ \bar x\to a\bar x \Rightarrow$ 비율 동일).

신호대잡음비(SNR)
(두 집단 평균 차이의 표준화 예) \(\mathrm{SNR}=\frac{\bar x_1-\bar x_2}{\sqrt{(s_1^2+s_2^2)/2}}\)

  • 분포 분리도/검출 가능성 정량화. Ch.3(진단검사/ROC)에서 재등장.

데이터 제시 방식(그룹화/요약)

원자료 표(table): 표본이 크지 않을 때 손실 없이 직접 제시.

도수분포/히스토그램

  • 동일값/구간별 빈도(또는 누적빈도) 제시.
  • 구간 수·경계 선택이 주관적일 수 있고, 구간 내 미세 구조는 손실.

Stem-and-Leaf Plot

  • 각 값 $\to$ stem(덜 변하는 자릿수) + leaf(나머지 자릿수).
  • 히스토그램처럼 모양을 보여주면서 원자료 보존(거의 무손실).
  • 누적개수 열로 중앙값 위치 파악 용이.

박스그림(Box/Whisker)

  • 중앙값, 하·상사분위 $(Q_1,Q_3)$, 사분위범위 $(\mathrm{IQR}=Q_3-Q_1)$, 수염(범위).
  • 왜도 판단: 양의 왜도면 상단 수염/상사분위 쪽이 더 길어지는 경향.

이상치 규칙(관례)
\(\text{일반 이상치: }\ [\,Q_1-1.5\,\mathrm{IQR},\ Q_3+1.5\,\mathrm{IQR}\,]\) \(\text{극단 이상치: }\ [\,Q_1-3\,\mathrm{IQR},\ Q_3+3\,\mathrm{IQR}\,]\)

  • 계수 $1.5, 3$는 상황에 따라 조정 가능—선택 이유를 문서화할 것.

확률(Probability)로의 전환: 왜 필요한가?

추론통계는 “귀무가설이 참일 때 이런(또는 더 극단적) 데이터가 나올 확률”을 묻는다.
→ 기초 확률론(사상·표본공간·공리·계산 법칙)이 뼈대가 됨.
→ 이후 진단검사 & ROC(TPR/FPR 기반 성능평가)로 연결.


집합/사상 기초와 표기

  • 표본공간 $\Omega$: 실험의 모든 가능한 결과 집합.
  • 사상(Event): $\Omega$의 부분집합.
  • 연산: 합집합 $A\cup B$ (“A 또는 B”), 교집합 $A\cap B$ (“A 그리고 B”), 여집합 $A^{c}$.
  • 배반(Disjoint): $A\cap B=\varnothing$.
  • 드모르간 법칙 \((A\cup B)^{c}=A^{c}\cap B^{c},\qquad (A\cap B)^{c}=A^{c}\cup B^{c}.\)

    주의: $\cup,\cap$는 사상(집합) 연산. 확률값 $P(\cdot)$끼리 직접 $\cup,\cap$를 쓰지 않음.


빈드주의 확률과 공리

빈도주의 정의 \(P(A)=\lim_{n\to\infty}\frac{\#A}{n}.\)

공리 \(0\le P(A)\le 1,\qquad P(\Omega)=1,\) \(A,B\ \text{배반}\Rightarrow P(A\cup B)=P(A)+P(B).\) (배반이 아닐 때는 $P(A\cup B)=P(A)+P(B)-P(A\cap B)$ — 다음 장에서 상세)

경험적 확률(추정) \(\hat P(A)=\frac{\#A}{n}\quad(\text{표본이 클수록 } \hat P(A)\xrightarrow{\text{LLN}} P(A)).\)


확률모형 예시

두 주사위의 합이 7
\(|\Omega|=36,\quad \#\{(i,j):i+j=7\}=6\ \Rightarrow\ P=6/36=1/6.\)

집단 위험 비교(스케치)
A: $10{,}000$명 중 40건, B: $10{,}000$명 중 50건.
“우연인가, 위험 증가인가?” $\Rightarrow$ 귀무가설(동일 위험률)하 관측 차이의 확률 평가.

공정성 검사 예
주사위 짝수 관측 200회 중 90회 $\Rightarrow \hat p=0.45$.
공정 가정($p=0.5$) 하에서 이런 편차가 그럴듯한가? $\Rightarrow$ 이후 장에서 가설검정으로 정량화.


한 줄 요약

Ch.2는 요약 지표(CV/SNR)와 표현 기법(히스토그램·stem-and-leaf·박스플롯)으로 마무리.
다음 파트는 확률의 언어(사상·공리·모형·경험확률)를 다져 추론/검정·ROC로 넘어간다.

사건·표본공간·가법법칙·독립성 정리

사건·표본공간·벤 다이어그램

  • 사건공간(표본공간): 가능한 모든 결과의 집합.
  • 사건: 사건공간의 부분집합.
  • 확실사건: 전체 공간 자체, 확률 $=1$.
  • 공집합: 일어나지 않는 사건, 확률 $=0$.
  • 기호: 합집합 $\cup$, 교집합 $\cap$, 여집합 $A’$.

De Morgan 법칙
\((A\cup B)'=A'\cap B',\qquad (A\cap B)'=A'\cup B'.\)


경험(경험적) 확률과 반복성

  • 경험적 확률: 반복 실험에서의 상대도수. 반복 횟수 ↑ $\Rightarrow$ 대수의 법칙에 의해 참확률로 수렴.
  • 완전 반복 불가 주의: 피검자/환경이 매회 달라질 수 있음.
  • 주관적 확률: 희귀·비반복 사건에 대해 신념/베팅 배당으로 해석.

배당(odds)
\(\text{odds for }A \;=\; P(A):P(A').\) even odds $\Leftrightarrow$ $P(A)=P(A’)=0.5$.


확률의 가법법칙(덧셈법칙)

일반식
\(P(A\cup B)=P(A)+P(B)-P(A\cap B).\)

겹치는 영역(교집합)을 한 번만 세기 위해 $P(A\cap B)$를 뺀다.

  • 배반(Disjoint): $P(A\cap B)=0\Rightarrow P(A\cup B)=P(A)+P(B)$.
  • $3$개 이상은 포함–배제로 확장.

예 1 이중 선별검사(양성 시 의뢰)
주어짐: $P(A^+),\,P(B^+),\,P(A^+\cap B^+)$.
\(P(\text{의뢰})=P(A^+\cup B^+)=P(A^+)+P(B^+)-P(A^+\cap B^+).\)

예 두 자녀 독감
$P(A_1)=P(A_2)=0.2,\; P(A_1\cap A_2)=0.1$.
\(P(A_1\cup A_2)=0.2+0.2-0.1=0.3.\)


독립성 vs 배반성

독립성 정의
\(P(A\cap B)=P(A)\,P(B).\)

한 사건의 발생 정보가 다른 사건의 확률을 바꾸지 않음.

  • 배반과 다름: 배반이면 보통 독립이 아님(교집합 $=0$이지만 $P(A)P(B)\neq0$인 경우 다수).
  • 보완 예: $A$와 $A’$는 일반적으로 종속(특수하게 $P(A)=0$ 또는 $1$이면 독립).

판단 예시

  • 두 선별검사: $P(A^+\cap B^+)\ne P(A^+)P(B^+)$ $\Rightarrow$ 종속.
  • 가족 독감($A_1$: 엄마, $A_2$: 아빠) 함께 거주 $\Rightarrow$ 종속 합리적.
  • 주사위
    • $A$: 짝수, $B={1,2}$, $C={1,2,3}$
    • $P(A\cap B)=\tfrac{1}{6}=P(A)P(B)=\tfrac12\cdot\tfrac13$ $\Rightarrow$ A와 B 독립
    • $P(A\cap C)=\tfrac{1}{6}\neq P(A)P(C)=\tfrac12\cdot\tfrac12$ $\Rightarrow$ A와 C 종속

조건부 관점
$A$(짝수)를 알더라도 $P(B)=\tfrac{1}{3}$은 불변 $\Rightarrow$ 독립.


시험·과제 포인트

  • 벤 다이어그램으로 겹침/배반/여집합 시각화.
  • 가법법칙을 정확히 쓰고 왜 교집합을 빼는지 설명할 수 있게.
  • 독립성 판정: 수치 대입 또는 조건부 확률 해석으로 확인.
  • 경험적 확률 $\leftrightarrow$ odds(for/against, even) 변환 연습.
  • 독립일 때는 곱셈으로 동시 발생 확률 계산.

한 줄 요약

집합·벤 다이어그램으로 사건 연산을 복습하고, 가법법칙독립성(곱 조건) 을 예제로 다졌다.
독립성은 겹침 유무가 아니라 $P(A\cap B)=P(A)P(B)$ 로 판단한다.

확률: 독립/가법/곱법 & 예제

핵심 개념 리마인드

  • 독립(Independent)
    \(P(A\cap B)=P(A)\,P(B)\) 배반(disjoint)과 다름 — 배반이면 보통 독립이 아님.

  • 가법법칙(Addition)
    \(P(A\cup B)=P(A)+P(B)-P(A\cap B)\)

  • 곱법칙(독립 $n$개)
    \(P\!\Big(\bigcap_{i=1}^{n} A_i\Big)=\prod_{i=1}^{n} P(A_i)\) 상호(완전) 독립은 모든 부분집합에 대해 곱조건이 성립해야 함.


예제 1: 3명 중 적어도 한 명 암 발병

  • 개인 발병확률 $p=0.24$ (서로 독립 가정).
  • 보사건 사용: \(P(\ge 1\text{명})=1-P(0\text{명}) =1-(1-p)^3 =1-0.76^3 \approx 1-0.438 =0.562\)
  • (대안) 가법법칙 + 포함-배제로도 동일 결과.

예제 2: 오버부킹 좌석 배정

  • 좌석 100석, 승객 105명. 모든 승객이 좌석을 받을 동일 확률.
  • 한 승객이 어떤 좌석이든 받는다는 사건 \(A=\bigcup_{i=1}^{100} A_i,\quad P(A_i)=\frac{1}{105}.\) $A_i$들은 배반이므로 \(P(A)=\sum_{i=1}^{100}P(A_i)=\frac{100}{105}=\frac{20}{21}.\)
  • 한 승객이 좌석을 못 받음: \(P(A^{c})=1-\frac{20}{21}=\boxed{\frac{1}{21}}.\)

    강의 중 언급이 혼동되어 정정: 못 받을 확률은 $1/21$.


예제 2-확장: $N$번 비행 중 적어도 1회 미탑승 확률이 50% 되는 $n$

  • 각 비행에서 좌석 받을 확률 $q=\frac{20}{21}$ (독립 가정).
  • 전부 탑승: $P(\text{all})=q^{\,n}$.
  • even odds 조건 \(1-q^{\,n}=0.5 \;\Rightarrow\; q^{\,n}=0.5 \;\Rightarrow\; n=\frac{\ln 0.5}{\ln(20/21)}\approx 14.2.\)
  • 정수 선택:
    • $n=14\Rightarrow P(\ge 1\text{회 미탑승})\approx 0.495$ (근접)
    • $n=15\Rightarrow \approx 0.519$ (50% 초과, 보수적이면 15회)

주변(주변확률, Marginal)과 분할

  • ${B_1,\dots,B_k}$가 서로 배반 & 전체공간 분할이면 \(P(A)=\sum_{j=1}^{k} P(A\cap B_j)\quad\text{(전확률)}.\)
  • 예: 선별검사 $A^+$, $B^+/B^-$ \(P(A^+)=P(A^+\cap B^+)+P(A^+\cap B^-).\)

의존성의 정량화: 상대위험 (Relative Risk, RR)

  • 정의(“A 여부에 따른 B의 위험”): \(RR=\frac{P(B\mid A)}{P(B\mid A^c)}\)
    • 독립이면 $RR=1$
    • $RR\neq 1$이면 A와 B가 의존

예시: 가족 독감

주어진 값으로 계산: \(P(A_2\mid A_1)=0.20,\quad P(A_2\mid A_1^c)\approx 0.089 \Rightarrow RR\approx \frac{0.20}{\!0.089}\approx 2.2\) → 엄마가 걸리면 아빠 위험이 약 2배.


전확률법칙 (Partition Rule)

\(P(A)=\sum_i P(A\mid B_i)\,P(B_i)\) ($B_i$: 서로 배반 & 전체분할)

예시: 백신 품질 혼합

  • 가정: $90\%$ dead, $10\%$ live
  • $P(\text{병}\mid \text{dead})=0.05,\; P(\text{병}\mid \text{live})=0.5$
\[P(\text{병})=0.05\times 0.9 + 0.5\times 0.1 = 0.095\]

비접종 집단이 $10\%$라면 접종은 평균적으로 조금 위험을 낮춤(9.5%).
개인 의사결정은 고위험/저위험 분할 $HR, LR$로 \(P(\text{병})=P(\text{병}\mid HR)P(HR)+P(\text{병}\mid LR)P(LR)\) 처럼 개인 위험도를 반영.

  • 유병률(Prevalence): 특정 시점 현재 보유 비율
  • 발생률(Incidence): 기간 내 신규 발생 확률(누적/밀도 구분)