ANOVA

1.정의

여러집단 간 평균의 차이가 통계적으로 유의미한지 알아보는 방법이다

한국어로는 분산 분석으로 불린다.

2.오해 -> 집단간의 분석이 아닌 집단간의 평균을 분석하는 테스트임!

ANOVA 분석 가장 쉽게 정리하기 (분산분석 & F-검정)

1. ANOVA가 뭐야?

ANOVA (Analysis of Variance) = 분산분석
하는 일 한 줄 요약:

여러 집단의 평균이 서로 통계적으로 다르냐?를 검사하는 방법
예:
- 3가지 쿠키 레시피 평균 맛 점수가 다 같은지?
- 4개 치료 그룹의 평균 효과가 같은지?

2. 왜 이름이 “분산분석”일까?

사실 우리가 궁금한 건 평균 차이인데,
그걸 분산(퍼짐)을 이용해서 본다.

ANOVA는 두 가지 분산을 비교해:

집단 간 분산 (Between-group variance)
- 레시피별(집단별) 평균이 서로 얼마나 떨어져 있는지
- 평균 차이가 크면 → 집단 간 분산 ↑
집단 내 분산 (Within-group variance)
- 같은 레시피 안에서 사람들 점수가 얼마나 들쑥날쑥한지
- 한 레시피 안에서 점수 차이가 크면 → 집단 내 분산 ↑

쉽게 말하면:

“레시피별 평균 차이가 진짜인지,
아니면 원래 점수가 들쑥날쑥해서 생긴 착시인지 확인하는 작업”

3. F-검정(F-test)와의 관계

ANOVA의 핵심 통계량이 바로 F값이야.

[ F = \frac{\text{집단 간 분산}}{\text{집단 내 분산}} ]

F가 크다 👉
- 그룹 평균들이 서로 많이 떨어져 있거나
- 그룹 안 점수들이 별로 안 퍼져 있음
  → 집단 평균 차이가 진짜 있을 가능성이 크다
F가 작다 👉
- 평균 차이가, 그룹 안의 들쑥날쑥에 비해 별로 크지 않음
  → 평균 차이가 우연일 수도 있다

그래서:

ANOVA = F-검정을 사용해서 “집단 평균이 같은지/다른지”를 테스트하는 방법

즉, 각각의 집단이 얼마나 퍼져있는지를 나타내는 ‘분산’을 사용하여 평균차이가 우연이 아니라는 것을 통계적으로 검증

쉽게 말해 ANOVA 분석은 집단간의 평균차이가 있다는 주장을 분산을 통해 증명하는 방법이다.

이라고 보면 됨.

4. 쿠키 예시로 이해하기

세 가지 쿠키 레시피:

레시피 A (백종원)
레시피 B (이연복)
레시피 C (최현석)

친구들이 0점~10점 맛 점수 줬다고 하자.

각 레시피별 평균 점수를 계산
- 예: A가 제일 높게 나올 수 있음
하지만,
- 레시피 B가 0점 아니면 10점 처럼 호불호가 심하면
- 평균만 보고 “이게 더 맛있다”라고 말하기 애매함

그래서 우리는:

레시피별 평균 차이(집단 간 분산)와
같은 레시피 안에서 점수의 퍼짐(집단 내 분산)을
함께 고려해서 F값을 계산하고,

이 F값을 F분포와 비교해서:

p-value가 작다 →

“적어도 한 레시피는 평균이 확실히 다르다” (유의한 차이)
p-value가 크다 →

“평균 차이는 우연일 가능성이 크다” (유의한 차이 없음)

가장 맛있는 쿠키를 찾았다는건 레시피간 차이가 있다는 말이다.

하지만, 이연복 레시피처럼 집단 내에서의 편차가 심해 평균이 왜곡된다면

우리의 주장 백쫑원의 쿠키레시피가 가장 맛있다는 설득력이 떨어진다

F값이 크다는것은 어떤 레시피가 유의미한 차이가 생길만큼 맛있어서

각 그룹의 평균들이 멀리떨어져 있거나

레시피의 취향 차이가 거의 없어 각 그룹내 분산이 작은 경우가 되는 것이다.

이렇게 만들어진 F통계량과 이미 만들어진 F분포의 비교를 통해

귀무가설을 기각해야 백쫑원의 레시피가 가장 맛있다는 주장에 힘이 실어진다.

이전귀무가설

다음선형회귀