Lecture 1 (통계란 무엇인가)
통계의 목적과 범위
- 통계는 표본 데이터로부터 모집단에 대한 추론을 하는 과학.
- 이 과목은 확률과 핵심 통계 방법에 초점.
- 기본은 정규(가우시안) 가정이지만, 분포 미지 상황의 비모수 방법도 간단히 다룸.
기술통계 vs 추론통계 vs 통계컴퓨팅
- 기술통계: 평균·표준편차·범위 및 명확한 그래프/표로 데이터 구조 요약.
- 추론통계: 가설검정·신뢰구간 등으로 표본→모집단 결론 도출.
- 통계컴퓨팅: 몬테카를로, 영상 재구성 등 확률·통계 기반 계산법 적용.
사례 1: 혈압 측정 장치 비교 (Rosner Ch.1)
- 질문: 자동 혈압계 vs 수동 커프가 동등한가?
- 설계: 순서 효과, 피험자 특성(성별·나이·체중·고혈압 이력), 비식별화, 이상치 확인.
- 한 장소(Location C): 평균 차이 ≈ 14 mmHg.
- 귀무가설: 모집단 평균 차이 = 0.
- 정규 등 확률모형으로 “이런 차이가 우연치고 얼마나 드문가” 평가.
사례 2: 기술통계 시각화 (Rosner Ch.2)
- 비타민 A vs 암: 집단별 히스토그램—암 환자군의 고섭취 구간이 드묾.
- CO 시간대 노출: 비흡연자 vs 간접흡연자—오전 유사, 정오 근처 간접흡연군↑, 퇴근 후 수렴.
실무 포인트
- 모델링 전 기술통계+시각화로 구조·경향·이상치 점검.
- 연구 설계 단계에 순서/동시측정/피험자 메타데이터/보안 명시.
- 가설검정은 “귀무가설이 참일 때 이런 데이터가 나올 확률”을 해석.
Lecture 2 (기술통계 실무 팁)
자기완결적 그래프
- 캡션에 핵심 맥락(무엇/왜/데이터/핵심 메시지).
- 축 단위, 기호/변수 정의, 범례 명확히.
필요한 것만 보여주기
- 추세가 보일 만큼만 그리기(과장·장식 금지).
기본값 맹신 금지
- 축 범위·비율·선 스타일을 목적 맞게 조정.
- ROC 예: x(FPR), y(TPR) ∈ $[0,1]$ → 축 길이 동일.
파일 포맷
- 벡터(EPS/PS/PDF/SVG) 권장(확대해도 선명).
- 래스터(JPEG/PNG)는 확대 시 픽셀 깨짐.
- 스크린샷→벡터 변환은 품질 복구 불가.
표기 & 위치 척도
-
표본: $x_1,\ldots,x_n\;(\mathbf{x})$
- 산술평균
\(\bar{x}=\frac{1}{n}\sum_{i=1}^n x_i\)
- $y_i=ax_i+b \Rightarrow \bar{y}=a\bar{x}+b$
- 이상치에 민감
- 중앙값
- 정렬 후 중앙(짝수면 중앙 두 값 평균)
- $y_i=ax_i+b \Rightarrow \mathrm{median}(y)=a\,\mathrm{median}(x)+b$
- 이상치에 강건
- 최빈값(mode)
- 최다빈도 값(범주형에 유용, 연속값 분산 크면 한계)
- 기하평균
\(\mathrm{GM}=\exp\!\Big(\frac{1}{n}\sum \log x_i\Big)
=\Big(\prod x_i\Big)^{1/n}\)
- 스케일 큰(멱/지수형)·농도/노출량·로그 축에 적합
- 우측 왜도 자료에서 평균의 대안
Mean vs Median (과제 포인트)
- 중앙값 권장: 왜도 큼/이상치 있음(농도, 소득 등)
- 산술평균은 이상치에 취약, 중앙값은 강건
산술 vs 기하평균 (신장·농도)
- $\bar{x}=\frac{1}{n}\sum x_i$, $\;\mathrm{GM}=\exp!\big(\frac{1}{n}\sum \log x_i\big)$
- 로그정규/곱적 과정이면 GM 사용 권장
- 0 처리: LOD/2 또는 $\epsilon$ 대체 후 규칙 명시
- 결론: 우측 왜도 농도 데이터는 GM이 더 적절
분포 모양 & 평균–중앙값
- 대칭: $\bar{x}\approx \mathrm{median}$
- 우측 꼬리: $\bar{x}>\mathrm{median}$
- 좌측 꼬리: $\bar{x}<\mathrm{median}$
산포(변동) 척도
-
범위: $\max-\min$ (표본크기·이상치에 매우 민감)
- 백분위/분위
- $p$백분위 $v_p:$ 데이터의 $p\%\le v_p$
- 계산(정렬 후) $k=n\cdot p/100$
- $k$ 정수 → $k$·$(k{+}1)$ 평균
- 아니면 올림해 $k’$번째 값
- IQR(Q3−Q1)로 강건한 분산 요약
- 표본분산/표준편차
\(s^2=\frac{1}{n-1}\sum (x_i-\bar{x})^2,\quad s=\sqrt{s^2}\)
- $n{-}1$: 자유도 보정(불편추정)
-
변환: $y_i=ax_i+b \Rightarrow s_y= a \,s_x$