이산 확률변수와 PMF/CDF — 한 장 요약
- 이산 랜덤변수 (X): 실험 결과를 (0,1,2,\dots) 같은 가산 값에 매핑
- PMF (p_X(k)=P(X=k)): 각 값 (k)에 붙는 확률
- 성질: (0\le p_X(k)\le1), (\sum_k p_X(k)=1)
- CDF (F(x)=P(X\le x)): 이산형은 계단형(스텝) 누적함수
현장 TIP
- PMF(모형) vs 빈도표(표본)를 구분해 해석
- 누적확률은 보완사건으로 빠르게 계산:
(P(X\ge a)=1-P(X\le a-1))
작은 예시(PMF ↔ 빈도 비교)
항고혈압제 시험(4명 대상): 제조사 제공 예상 PMF와 100개 의원의 관측 빈도가 전반적으로 유사 → 모형이 데이터와 잘 맞음(정성 확인).
기대값·분산·모멘트·CDF 공식
-
기대값(분포 평균)
\[\mu = E[X] = \sum_k k\,p_X(k)\]표본평균은 (\mu)의 추정치이며 LLN(대수의 법칙)으로 수렴.
-
분산
\[\sigma^2 = \sum_k (k-\mu)^2 p_X(k) = E[X^2] - (E[X])^2\] -
모멘트
- (m)차 모멘트: (E[X^m])
- 중심모멘트: (E[(X-\mu)^m]) — 1차는 0, 3차(표준화)는 왜도 지표
-
CDF(누적분포함수)
\[F(x) = P(X \le x)\]이산형은 각 정수에서 점프하는 스텝 플롯.
조합론 리마인드(이항분포 준비)
- 순열:
(P(n,k)=\dfrac{n!}{(n-k)!}) (순서 중요) - 조합:
(\displaystyle \binom{n}{k}=\dfrac{n!}{k!(n-k)!}) (순서 무관)
클래스 미니 예시
-
10명 중 3명(역할 동일) 선발 시 특정 학생이 뽑힐 확률
\[\frac{\binom{9}{2}}{\binom{10}{3}} = \frac{36}{120} = 0.3\] -
3명에게 서로 다른 역할 배정 시 “결과발표”를 특정 학생이 맡을 확률 (=1/10)
이항분포 (\mathrm{Binomial}(n,p))
정의와 PMF
- 배경: 이항분포는 두 가지 사건만 가능한 시행(예: 동전 던지기)에 쓰이며, 조건에 따라 정규분포로 근사됨.
- 개념: 성공확률 (p)인 시행을 (n)회 독립 반복할 때, 관심 사건이 발생한 횟수의 분포.
-
조건: 독립 시행 (n)회, 매회 성공확률 (p), 실패확률 (q=1-p).
-
PMF:
\[P(X=k) = \binom{n}{k} p^k q^{\,n-k}, \quad k=0,1,\dots,n\] - 기대값 (E[X]=np), 분산 (\mathrm{Var}(X)=npq)
정규화 체크
(\sum_{k=0}^n \binom{n}{k}p^k q^{n-k}=(p+q)^n=1)
시뮬레이션 히스토그램(경험적 확률)
(n=10,\ p=0.05)

(n=10,\ p=0.95)

(n=10,\ p=0.50)

예시 1 — 출생 성별
아들 확률 (p=0.51). 5명 중 정확히 2명 아들:
\[P(X=2) = \binom{5}{2}\,0.51^2\,0.49^3 \approx 0.30\]예시 2 — 영아 기관지염(“적어도 3건?”)
전국 평균 (p=0.05), 가정 20곳 ⇒ (X\sim \mathrm{Bin}(20,0.05))
\[\begin{aligned} P(X\ge 3) &= 1 - \big[P(X=0)+P(X=1)+P(X=2)\big] \\ &\approx 1 - \big(0.358 + 0.377 + 0.189\big) \\ &\approx \mathbf{0.077} \end{aligned}\]해석: 우연히 3건 이상 나올 확률이 약 7.7%.
“이상 높음” 판단은 유의수준, 다중비교 등 맥락에 의존.
요점 정리 & 치트시트
- PMF/CDF로 이산확률을 모델링, 표본 빈도로 검증
- 기대값·분산은 위치·산포, 표본통계는 그 추정치
- 모멘트/왜도로 꼬리·비대칭성 파악
- 이항분포는 “성공/실패” 누적 모델의 기본기
- 누적확률은 보완사건 활용:
(P(X\ge a)=1-P(X\le a-1))