통계학 공부

ANOVA, 카이제곱 검정과 상관분석

myun0506 2026. 2. 18. 14:16

F값의 위치에 따라 그 이상을 받을 확률이 p-value가 되는 것이고 이때부턴 다른 가설검정과 같이 유의수준과 비교해 귀무가설을 기각할지 채택할지 정하게 되는 것

 

 

- ANOVA(Analysis of Variance, 분산분석)

집단이 3개 이상일 때의 집단의 평균 차이 비교
비교 대상은 평균의 차이이지만 비교하는 과정에서 분산이 쓰이므로 분산분석으로 표현

 

  • ANOVA의 원리 (일원분산분석, One-way ANOVA)
    • 집단 내에서의 분산과 집단 간의 분산을 비교하는 방식
    • 집단 내에서의 분산보다 집단 간의 분산이 더 크다면, 집단 간 차이가 있다고 판단

  • ANOVA 검정의 가설
    • ANOVA 검정의 경우, t-검정과는 다르게 가설이 고정되어 있다. (t-검정은 차이가 크다 작다, 있다 없다 중 하나를 설정할 수 있었지만 ANOVA는 평균이 같다와 적어도 하나 이상은 다르다로 고정됨)
    • 귀무가설: 모든 집단의 평균이 같다
    • 대립가설: 적어도 하나의 집단 평균은 다르다
  • F값 = 집단간분산 / 집단내분산

 

  • ANOVA 종류
  2개 이하 비교 (t-검정) 3개 이상 비교 (F-검정)
집단 평균 vs 기준값 단일표본 t-검정  
집단 간 비교 (A vs B / A vs B vs C) 이표본 t-검정 (독립표본 t-검정) 일원 ANOVA
집단 간 비교 (A vs A’ vs B vs B’)   이원 ANOVA
동일 집단의 전후 비교 대응표본 t-검정 반복측정 ANOVA

 

  • 일원 ANOVA (One-way ANOVA)
    • 서로 다른 3개 이상의 그룹의 평균을 비교할 때 적용되는 검정방법 (A vs B vs C)
    • 독립표본 t-검정에서 그룹 수가 1개 이상 더 늘어났을 때 적용

 

 

  • 이원 ANOVA (two-way ANOVA)
    • 그룹을 나누는 기준이 2가지이고, 그룹 간의 평균을 비교할 때 적용
    • 그룹을 2가지 기준으로 나눈 뒤 각각의 기준으로 인해 차이가 발생하는지, 두 기준의 상호작용효과로 차이가 발생하는지 확인할 수 있음
     

 

이원 ANOVA 검정에서는 두 기준의 상호작용 효과에 따른 차이를 같이 살펴본다는 점이 일원 ANOVA와 차이가 나타나는 점

위 결과에서 맨 오른쪽 컬럼(p-value)을 보면, 반:성별의 상호작용에서만 p-value가 0.05보다 작은 수치를 보인다
즉 반, 성별에 각각에 의한 차이는 나타나지 않았지만 반:성벽의 상호작용에 의한 평균 차이는 발생한다고 결론을 내릴 수 있다

 

 

  • 반복측정 ANOVA (RM ANOVA, Repeated Measure ANOVA)
    • 대응표본 t-검정과 비슷하게 한 집단을 대상으로 여러번 데이터를 구해서 차이를 비교하는 검정 방법

각 행이 한 사람에서 나오는 데이터! (일원, 이원 ANOVA와의 차이점)

결과를 보면 맨 오른쪽 Pr > F (= p-value) 를 보면 0에 근사한 값을 갖는다
따라서 식단별로 몸무게 감소에 차이가 있었음을 알 수 있다

 

  • ANOVA 검정의 전제조건
    • 정규성, 등분산성의 경우 t-test일 때와 동일한 방식으로 검정하며, 독립성은 데이터를 수집하는 단계에서 확보되어야 하는 조건임
    • 구형성은 반복측정 ANOVA일 때만 검정하는 것

위의 예시를 보고 참고하자면,

독립성은 은중, 상연, 상학, 재준, 세리 각각이 모두 독립적이라는 것 (은중이의 식단 A,B,C 간의 데이터는 서로 독립적이지 않음)

구형성은 식단A-B, B-C, C-A 각각의 열 간의 분산이 같아야한다는 것 (각 반복 조건 간 차이 점수들의 분산이 동일해야함)

 

 

- 사후검정

ANOVA 검정에서는 차이의 유무만 확인할 수 있다
여러 개의 집단 중 어느 집단끼리 차이가 발생했는지 알아내기 위해서는 사후 검정의 절차가 필요하다



 

- 다중검정

여러 개의 가설을 동시에 검정(test) 하는 것
  • 다중검정의 고질적인 문제
    • 여러 개의 가설을 동시에 검정할 때, 제 1종 오류 (귀무가설을 잘못 기각할 확률) 가 누적되어 전체 오류율이 커지는 현상이 발생할 수 있음 
     

 

 

 

- 카이제곱 검정

범주형 변수를 비교할 때 사용되는 검정방법으로 기대와 일치하는지 검정하는 적합도 검정과 두 범주형 변수의 독립성을 확인하는 독립성 검정이 있다

 

 

  • 카이제곱 적합도 검정 (Goodness-of-Fit Test)
한 집단의 여러 범주 분포가 기대와 일치하는지 검정할 때 사용

 

  • 사용 조건
    • 하나의 범주형 변수에 3개 이상의 범주가 있고 
    • 각 범주가 예상된 비율(기댓값)과 다른지 검정
  • 예시
    • 고객이 A/B/C 브랜드를 고른 비율이 모두 1:1:1일까?
    • A:40명, B:30명, C:30명 -> 기댓값은 33.3명씩
  • 귀무가설
    • 관측된 분포는 기대 분포와 같다 

 

  • 카이제곱 독립성 검정
두 범주형 변수 간에 관련이 있는지(독립인지)를 검정할 때 사용

 

  • 사용 조건
    • 교차표(Contingency Table)로 표현 가능한 두 범주형 변수
    • 행과 열 변수 간 관계(연관성)이 있는지를 봄
  • 예시
    • 성별과 구매 여부가 관련이 있을까?
    • 카테고리별 선호하는 색상이 있나?
  • 귀무가설
    • 성별과 구매 여부는 서로 독립이다 (즉, 성별은 구매 여부에 영향을 주지 않는다)
    • 카테고리와 색상은 서로 독립이다

 

 

- 상관관계

 

1. 수치형 변수일 때

  • 산점도
    • 수치형 변수 2개는 x축과 y축으로 이루어진 산점도로 표현할 수 있다
    • 2개 변수의 관계성을 상관이라고 하며, 2개의 변수 또는 데이터 사이의 관계성을 의미함 
    • -> 상관이 있다고 해서 원인과 결과를 뜻하는 인과관계가 있는지까지는 알 수 없음!!

 

  • 상관계수의 종류
    • 피어슨 상관계수
      • 두 변수 사이 선형관계의 정도와 방향을 수치로 표현하는 지표
      • 두 변수를 scatter plot에 그려봤을 때 직선형태의 관계가 나왔을 때 사용하는 것이 적합
      • (비선형인 경우, 스피어만 상관계수 혹은 켄달의 타우 상관계수를 사용)
    • 스피어만 순위상관계수
      • 두 변수의 순위 간 상관관계를 측정하는 지표 -> 값 자체보다는 순위차이에 집중
      • 순위형 데이터이거나 연속형 데이터가 비선형일 때 사용
    • 켄달의 타우
      • 두 변수 간의 순위 일치 정도를 측정하는 지표 -> 즉, 관측치쌍 간의 순서가 서로 일치하는지, 불일치하는지를 비교하여 계산
      • 순위형 데이터이거나 연속형 데이터가 비선형일 때 사용
       

 

 

2. 범주형 변수일 때

  • Cramer's V (크래머 V계수)
    • 범주형 변수 간의 연관성 정도를 측정하는 지표 
    • 범주형 변수의 교차표를 기반으로 계산

 

카이제곱 독립성 검정이 범주형 변수의 독립성 유무를 확인하는 거라면, Cramer's V는 독립적이지 않은 두 범주형 변수의 상관관계 정도를 확인