이항 분포

 

이산 확률변수와 PMF/CDF — 한 장 요약

  • 이산 랜덤변수 (X): 실험 결과를 (0,1,2,\dots) 같은 가산 값에 매핑
  • PMF (p_X(k)=P(X=k)): 각 값 (k)에 붙는 확률
    • 성질: (0\le p_X(k)\le1), (\sum_k p_X(k)=1)
  • CDF (F(x)=P(X\le x)): 이산형은 계단형(스텝) 누적함수

현장 TIP

  • PMF(모형) vs 빈도표(표본)를 구분해 해석
  • 누적확률은 보완사건으로 빠르게 계산:
    (P(X\ge a)=1-P(X\le a-1))

작은 예시(PMF ↔ 빈도 비교)

항고혈압제 시험(4명 대상): 제조사 제공 예상 PMF와 100개 의원의 관측 빈도가 전반적으로 유사 → 모형이 데이터와 잘 맞음(정성 확인).


기대값·분산·모멘트·CDF 공식

  • 기대값(분포 평균)

    \[\mu = E[X] = \sum_k k\,p_X(k)\]

    표본평균은 (\mu)의 추정치이며 LLN(대수의 법칙)으로 수렴.

  • 분산

    \[\sigma^2 = \sum_k (k-\mu)^2 p_X(k) = E[X^2] - (E[X])^2\]
  • 모멘트

    • (m)차 모멘트: (E[X^m])
    • 중심모멘트: (E[(X-\mu)^m]) — 1차는 0, 3차(표준화)는 왜도 지표
  • CDF(누적분포함수)

    \[F(x) = P(X \le x)\]

    이산형은 각 정수에서 점프하는 스텝 플롯.


조합론 리마인드(이항분포 준비)

  • 순열:
    (P(n,k)=\dfrac{n!}{(n-k)!}) (순서 중요)
  • 조합:
    (\displaystyle \binom{n}{k}=\dfrac{n!}{k!(n-k)!}) (순서 무관)

클래스 미니 예시

  • 10명 중 3명(역할 동일) 선발 시 특정 학생이 뽑힐 확률

    \[\frac{\binom{9}{2}}{\binom{10}{3}} = \frac{36}{120} = 0.3\]
  • 3명에게 서로 다른 역할 배정 시 “결과발표”를 특정 학생이 맡을 확률 (=1/10)


이항분포 (\mathrm{Binomial}(n,p))

정의와 PMF

  • 배경: 이항분포는 두 가지 사건만 가능한 시행(예: 동전 던지기)에 쓰이며, 조건에 따라 정규분포로 근사됨.
  • 개념: 성공확률 (p)인 시행을 (n)회 독립 반복할 때, 관심 사건이 발생한 횟수의 분포.
  • 조건: 독립 시행 (n)회, 매회 성공확률 (p), 실패확률 (q=1-p).

  • PMF:

    \[P(X=k) = \binom{n}{k} p^k q^{\,n-k}, \quad k=0,1,\dots,n\]
  • 기대값 (E[X]=np), 분산 (\mathrm{Var}(X)=npq)

정규화 체크
(\sum_{k=0}^n \binom{n}{k}p^k q^{n-k}=(p+q)^n=1)


시뮬레이션 히스토그램(경험적 확률)

(n=10,\ p=0.05)

n10p005

(n=10,\ p=0.95)

n10p095

(n=10,\ p=0.50)

n10p050


예시 1 — 출생 성별

아들 확률 (p=0.51). 5명 중 정확히 2명 아들:

\[P(X=2) = \binom{5}{2}\,0.51^2\,0.49^3 \approx 0.30\]

예시 2 — 영아 기관지염(“적어도 3건?”)

전국 평균 (p=0.05), 가정 20곳 ⇒ (X\sim \mathrm{Bin}(20,0.05))

\[\begin{aligned} P(X\ge 3) &= 1 - \big[P(X=0)+P(X=1)+P(X=2)\big] \\ &\approx 1 - \big(0.358 + 0.377 + 0.189\big) \\ &\approx \mathbf{0.077} \end{aligned}\]

해석: 우연히 3건 이상 나올 확률이 약 7.7%.
“이상 높음” 판단은 유의수준, 다중비교 등 맥락에 의존.


요점 정리 & 치트시트

  • PMF/CDF로 이산확률을 모델링, 표본 빈도로 검증
  • 기대값·분산은 위치·산포, 표본통계는 그 추정치
  • 모멘트/왜도로 꼬리·비대칭성 파악
  • 이항분포는 “성공/실패” 누적 모델의 기본기
  • 누적확률은 보완사건 활용:
    (P(X\ge a)=1-P(X\le a-1))