포아송분포 (\mathrm{Poisson}(\mu)) — 소개
정의
- 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기대값을
사용 이유
- 이항 분포에서 n이 너무 크고 p가 너무 작은 경우에 이항분포의 확률 분포를 근사적으로 계산하기 위해서는 극한값을 이용한 새로운 형태의 분포를 제시하는것이 바람직해보인다. 1시간 동안 창밖을 바라보는 상상을 해보자.
창 밖에는 수많은 사람들이 지나가고 있는데, 이 중 한 사람이 넘어질 가능성이 얼마나 될까?
가령 1000명의 사람들이 지나가고 있다고 했을 때, 10초에 1명 꼴로 사람이 넘어진다고 가정해보자.
즉, 10초에 0.1%의 확률로 사람이 한명 넘어진다고 해보자는 말이다.
그러면, 우리는 3600초 동안 10초에 0.1%의 확률로 일어나는 사건이 독립적으로 360번 일어나는 일을 가정하고 있다고도 볼 수 있다.
이런 경우에 우리는 이항분포를 이용해 1시간 동안 몇 명의 사람이 넘어지는지에 대한 확률에 대한 분포를 확인할 수 있을 것이다.
이것의 분포를 쉽게 계산할 수 있을 것 인가?
유도 & 적용
- 이항의 극한: (n\to\infty,\,p\to 0), (np\to \mu).
- 희귀 사건 카운트(시간/공간): 방사선 검출, 응급실 내원 수, 야생화 개체수 등.
가정(표준 포아송 과정)
- 희귀성: 작은 구간 (\Delta t)에서 (P(\text{사건})\approx \lambda \Delta t), 2회 이상은 무시.
- 독립성: 분리된 구간 간 독립.
- 정상성: 단위 시간 평균 (\lambda) 일정 → 기간 (t)의 평균 (\mu=\lambda t).
PMF·요약통계
[ P(X=k)=e^{-\mu}\frac{\mu^{k}}{k!},\quad k=0,1,2,\dots ] [ E[X]=\mu,\quad \operatorname{Var}(X)=\mu,\quad \text{Skewness}=\frac{1}{\sqrt{\mu}} ]
- (\mu)가 커질수록 정규형태에 근사(단, 포아송은 이산임).
이항→포아송 근사
- 조건: (n) 큼, (p) 작음, (q=1-p\approx 1).
- 근사: (\mu=np)로 치환해 포아송 사용(계산 안정성).
응급실 예제(포아송 적용)
- 보통 날 평균 (\mu=2), 고오염 날 평균 (\mu=4).
(1) 보통 날, 95% 확률로 수용 가능한 침상 수
- 최소 (k) s.t. (P(X\le k;\mu=2)\ge 0.95).
- 표/소프트웨어: (F(4;2)=0.947<0.95), (F(5;2)\approx 0.983).
- 답: 침상 5개.
고오염 날 동일 기준
- (P(X\le k;\mu=4)\ge 0.95).
- (F(7;4)\approx 0.948<0.95), (F(8;4)\approx 0.961).
- 답: 침상 8개.
임의의 하루에 정확히 4건일 확률(혼합)
- 보통날 345일, 고오염 20일(365일 기준).
[
\begin{aligned}
P(X=4)&=P(X=4\mid \mu{=}2)\tfrac{345}{365}
+P(X=4\mid \mu{=}4)\tfrac{20}{365}
&\approx 0.1954\cdot \tfrac{345}{365} +0.0902\cdot \tfrac{20}{365} \approx \boxed{0.096} \end{aligned} ] - 서로 다른 “날의 상태”를 전확률로 가중 평균.
체크리스트
- 이항 사용: 독립·동일 (p) 확인.
- 포아송 사용: 희귀성·독립성·정상성 확인.
- 누적확률은 CDF(로즈너 부록, R/Excel/MATLAB) 활용.
- 표본에서 평균≈분산이면 포아송 후보.
한 줄 정리
- 이항: 반복 성공/실패 기본 모델(기대 (np), 분산 (np(1-p))).
- 포아송: 희귀 사건 카운트 표준 모델(기대=분산=(\mu)).
- 설계·용량 산정은 CDF 기반으로 “최소 (k)” 찾기, 혼합 상황은 전확률로.