중심 극한 정리

 

도입부

여러가지 통계를 보면 대부분 정규분포를 따른다.

또 길이가 긴 자연수에 대해 각 숫자가가진 소인수의 개수를 세어보면 그 개수모음 역시 정규분포에 가깝다

왜 그럴까??

갈턴보드를 통해 무수히 많은 수의 공을 떨어뜨려보자.

(이때, 각 공이 유령처럼 서로에게 영향을 주지 않는다는 가정)

합이 떨어지는 위치를 묘사하는 분포가 점점 종모양과 비슷해진다.

일반적인 아이디어

확률변수 x에서 표본 N개를 추출하여 보면 표본 N -> Infinity 가는 경우 이 합의 분포는 점점 종 모양에 가까워진다.

결과의 합계가 속한다고 95% 신뢰할 수 있는 구간을 찾을 수 있는가?

특이점

확률분포가 일정하지 않고 가중되어 있는 결과에 대해서도 합의 분포가 종모양으로 나타남

하지만, 표본이 몇개 있어야 확실할 수 있다고 믿을 수 있을까?

우선, 분산과 표준편차의 성질에 대해 알아보자

\[\sigma_{X_1 + \cdots + X_n}^2 = n \cdot \sigma_{X_1}^2\] \[\sigma_{X_1 + \cdots + X_n} = \sqrt{n}\,\sigma_{X_1}\]

표본들을 점점 늘려가서 분포를 확인해볼 때, 분포들이 점점 퍼져나간다고 해도 그 속도는 빠르지 않다.

또한, 그 분포를 평균을 중심으로 한줄로 재정렬하고, 크기를 재조정하여 표준편차가 1로 같도록 만들어보면 점차 분포가 보편적인 모양에 가까워진다.

신기한것은 주사위 하나에 대한 어떤 분포에서 시작하든 성립한다는 것(즉, 확률이 일정하지 않은 단일분포에서도 표본을 점차 늘리면 성립해간다.)

아래식에 가까워 진다.

\[\frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2} x^{2}}\]

정규분포의 공식에 대한 의미

\[\frac{1}{\sigma \sqrt{2\pi}} \, e^{-\frac{1}{2} \left(\frac{x - \mu}{\sigma}\right)^2}\]

확률분포의 전체 면적이 1이면서 표준편차가 \sigma 인 확률 분포이다.

이때 표준편차가 1인 정규분포를 표준정규분포로 정의 한다.

표본에서 합을 구할텐데 이 표본의 합을 평균과 표준편차로 조정 및 표준화 하여

이 표본의 합이 나올 확률이 어느정도인지 계산하는것 같아. 연속확률변수로서 이 표준화된 값이 범위에 있을 확률은

\[\lim_{N \to \infty} P\bigl(a < Z < b\bigr) = \int_{a}^{b} \frac{1}{\sqrt{2\pi}} e^{-x^{2}/2} \, dx\]

정규분포에 관한 유용한 법칙

68 - 95 - 99.7 법칙

68%의 값이 평균에서 1 표준편차 안에 위치

95%의 값이 평균에서 2 표준편차 안에 위치

99.7%의 값이 평균에서 3 표준편차 안에 위치

주의할점

어떤 변수든 정규분포에 관련지어 말해서는 안된다

3 \sigma인 사건이니 p < 0.003이라고 확언해서는 안된다.

중심극한정리의 가정

  1. 모든 (X_i)는 서로 독립이다.

  2. 각각의 (X_i)는 같은 확률분포에서 유래한다.

  3. (0 < \operatorname{Var}(X_i) < \infty).