Correlation & Spearman (VALID.DAT)

 

1. 상관계수 크기의 대략적인 기준

여기서 r 또는 ρ는 그냥 “상관계수”를 뜻하는 기호라고 보면 된다.

  • r < 0.1 → 거의 없음 / 매우 약한 상관
  • r ≈ 0.3 → 약한~중간 정도 상관
  • r ≈ 0.5 → 어느 정도 뚜렷한 상관
  • r ≥ 0.7 → 꽤 강한 상관
  • r ≥ 0.9 → 매우 강한 상관

※ 숫자 기준은 교과서, 분야마다 조금씩 다를 수 있지만
위와 비슷하게 쓰는 경우가 많다.


2. Spearman 순위상관계수란?

2.1 기본 아이디어

Spearman 순위상관(기호: ρ 또는 ρ_s)은

  • 원래 값이 아니라 순위(rank) 를 사용해서
  • 두 변수의 상관관계를 측정하는 방법이다.

계산 과정(개념만):

  1. X 값들을 작은 순서대로 정렬 → 각 관측값에 1등, 2등, … 순위를 붙인다.
  2. Y 값들도 같은 방식으로 순위를 붙인다.
  3. 이렇게 얻은 두 개의 순위 집합 사이에 보통의 피어슨 상관계수를 계산한다.
  4. 그 결과가 Spearman 순위상관계수 ρ_s 가 된다.

장점:

  • 극단값(아웃라이어)에 덜 민감
  • 분포가 한쪽으로 치우쳐 있어도 비교적 안정적
  • “누가 더 큰지/작은지”라는 서열 정보에 관심이 있을 때 특히 유용

3. VALID.DAT 자료에서 Spearman 상관 (연습문제 11.72–11.75)

데이터: VALID.DAT (n = 173명)

  • DR (diet record): 며칠 동안 실제 먹은 것을 기록한 값
  • FFQ (food frequency questionnaire): 평소 식습관을 묻는 설문 기반 추정값

우리는 DR과 FFQ 사이에 순위상관(Spearman) 을 구해서
“누가 많이 먹는 사람인지, 적게 먹는 사람인지”에 대한 순위가
얼마나 잘 맞는지를 보고 있다.


3.1 11.72 알코올 섭취량 (alco_dr vs alco_ffq)

  • X = alco_dr (DR에서 측정한 알코올 섭취량)
  • Y = alco_ffq (FFQ에서 추정한 알코올 섭취량)

Spearman 상관계수:

  • ρ_s ≈ 0.899

유의성:

  • 대응되는 t 통계량 ≈ 26.8
  • 자유도(df) = 171
  • p-value ≈ 4.3 × 10⁻⁶³ (사실상 0)

해석:

  • ρ_s ≈ 0.90 → 매우 강한 양의 순위상관
  • DR에서 술을 많이 마시는 사람은 FFQ에서도 거의 항상
    “상대적으로 많이 마시는 사람”으로 잡힌다.
  • 알코올에 대해서는 DR과 FFQ의 순위가 거의 완벽하게 일치한다고 볼 수 있다.

3.2 11.73 총 지방 섭취량 (tfat_dr vs tfat_ffq)

  • X = tfat_dr (DR 총 지방)
  • Y = tfat_ffq (FFQ 총 지방)

Spearman 상관계수:

  • ρ_s ≈ 0.371

유의성:

  • t ≈ 5.22, df = 171
  • p ≈ 5.1 × 10⁻⁷ (p < 0.0001)

해석:

  • ρ_s ≈ 0.37 → 약~중간 정도의 양의 순위상관
  • 통계적으로는 매우 유의(p < 0.0001)
  • DR과 FFQ가 “지방을 많이 먹는 사람 vs 적게 먹는 사람”을
    어느 정도 일관되게 구분하지만,
    알코올(ρ_s ≈ 0.90)처럼 완벽하게 일치하는 수준은 아니다.

3.3 11.74 포화지방 섭취량 (sfat_dr vs sfat_ffq)

  • X = sfat_dr (DR 포화지방)
  • Y = sfat_ffq (FFQ 포화지방)

Spearman 상관계수:

  • ρ_s ≈ 0.422

유의성:

  • t ≈ 6.09, df = 171
  • p ≈ 7.3 × 10⁻⁹ (p < 0.0001)

해석:

  • ρ_s ≈ 0.42 → 총 지방보다 조금 더 강한 양의 상관
  • 포화지방 섭취 순서(누가 많이 먹는지)에 대해서는
    DR과 FFQ가 꽤 괜찮게 일치한다고 볼 수 있다.
  • 역시 통계적으로 매우 유의하다.

3.4 11.75 총 칼로리 섭취량 (cal_dr vs cal_ffq)

  • X = cal_dr (DR 총 칼로리)
  • Y = cal_ffq (FFQ 총 칼로리)

Spearman 상관계수:

  • ρ_s ≈ 0.340

유의성:

  • t ≈ 4.72, df = 171
  • p ≈ 4.8 × 10⁻⁶ (p < 0.0001)

해석:

  • ρ_s ≈ 0.34 → 약~중간 정도의 양의 상관
  • DR과 FFQ는 칼로리에 대해서도
    “많이 먹는 사람 vs 적게 먹는 사람”을 어느 정도 구분해 준다.
  • 하지만 알코올(ρ_s ≈ 0.90)에 비하면 훨씬 약한 상관이다.

4. ρ_s = 0.34, 0.37, 0.42 → “상관 있다”고 봐도 될까?

4.1 효과크기(effect size) 관점

위에서 본 기준에 대입하면:

  • ρ_s ≈ 0.34 (칼로리)
  • ρ_s ≈ 0.37 (총 지방)
  • ρ_s ≈ 0.42 (포화지방)

→ 모두 “약~중간 정도의 양의 상관관계” 라고 보는 것이 일반적이다.

정리하면:

  • 완전히 엉망인 측정은 아니다.
  • “누가 많이 먹는 사람인지”에 대한 순위를 어느 정도는 맞춰준다.
  • 다만 알코올처럼 (ρ_s ≈ 0.90) 거의 완벽하게 일치하는 수준은 아니다.

논문/리포트에서 보통 이렇게 쓸 수 있다.

  • 영어:

    There was a modest positive correlation between DR and FFQ for total fat intake (ρ_s ≈ 0.37).

  • 한국어:

    총 지방 섭취에 대해 DR과 FFQ 사이에 약한~중간 정도의 양의 상관관계가 있었다.

4.2 통계적 유의성 vs 상관의 크기

  • p-value는 “상관이 정말 0이냐?”라는 질문에 답한다.
    • p가 아주 작으면 → “상관이 0이라고 보기 어렵다(통계적으로 유의)”.
  • 상관계수 값 자체(예: 0.34, 0.37, 0.42)는
    • “실제로 어느 정도 강도의 관계인가?”(효과크기)를 알려 준다.

그래서 이번 결과는:

  • 상관이 “없지는 않다” (통계적으로 0이 아님)
  • 하지만 엄청 강한 상관은 아니다 (효과크기는 modest)

이 두 가지를 분리해서 해석하는 것이 중요하다.


5. p-value는 Spearman 상관(ρ_s)으로부터 어떻게 구하나?

여기서 사용한 p-value는 모두 표본 Spearman 상관계수 ρ_s 로부터 나온다.

5.1 검정 구조

  • 귀무가설 H₀: ρ_s = 0
    (모집단에서 순위상관이 없다)

  • 대립가설 H₁: ρ_s ≠ 0

먼저 데이터에서 ρ_s (예: 0.37)을 계산하고,
그다음 이렇게 묻는다:

“만약 실제로 ρ_s = 0인 세계라면,
지금 관찰한 0.37 정도(또는 그보다 더 극단적인 값)의 상관이
우연히 나올 확률은 얼마나 될까?”

이 확률이 바로 p-value이다.

5.2 실제 계산 순서 (큰 n에서의 t 근사)

표본 크기 n이 충분히 크면 (여기서는 n = 173):

  1. Spearman 상관계수 ρ_s 계산

  2. 아래 식으로 t 값 계산

    t = ρ_s × sqrt( (n - 2) / (1 - ρ_s²) )
    (자유도 df = n - 2)

  3. 이 t 값을 자유도 df = n-2인 t-분포에 넣어서
    양쪽 꼬리 누적확률을 계산 → 그것이 p-value.

예: 총 지방(11.73)에서

  • ρ_s ≈ 0.371, n = 173
  • t ≈ 0.371 × sqrt( 171 / (1 - 0.371²) ) ≈ 5.22
  • t(df=171) = 5.22 에 대한 p-value ≈ 5.1 × 10⁻⁷

→ p가 매우 작으므로
“모집단에서 상관이 0이다”라는 가설은 기각된다.

5.3 한 줄 요약

  • p-value는
    데이터 → ρ_s 계산 → t 값으로 변환 → t-분포에서 확률 계산
    과정을 통해 구해진다.
  • 즉, p-value는 Spearman 상관계수(표본 ρ_s)에 기반을 둔 값이다.

6. 11.76 – Parametric vs Nonparametric (최종 결론)

VALID.DAT의 식이자료 특성:

  • 비정규, 오른쪽 꼬리, 0과 극단값이 많을 가능성이 큼
  • 절대값 자체보다 “사람 간 순위(누가 더 많이 먹는지)”가 중요한 경우가 많음

따라서:

  • 비모수적 방법(Spearman 순위상관) 이 더 자연스럽고 안전한 선택이다.
  • 다만, 전처리(로그 변환 등)를 통해 분포를 좀 더 정규에 가깝게 만든 뒤
    Pearson 상관도 같이 보고 비교하면 가장 좋다.