ANOVA, 카이제곱 검정과 상관분석

통계학 공부

ANOVA, 카이제곱 검정과 상관분석

myun0506 2026. 2. 18. 14:16

F값의 위치에 따라 그 이상을 받을 확률이 p-value가 되는 것이고 이때부턴 다른 가설검정과 같이 유의수준과 비교해 귀무가설을 기각할지 채택할지 정하게 되는 것

- ANOVA(Analysis of Variance, 분산분석)

집단이 3개 이상일 때의 집단의 평균 차이 비교
비교 대상은 평균의 차이이지만 비교하는 과정에서 분산이 쓰이므로 분산분석으로 표현

ANOVA의 원리 (일원분산분석, One-way ANOVA)
- 집단 내에서의 분산과 집단 간의 분산을 비교하는 방식
- 집단 내에서의 분산보다 집단 간의 분산이 더 크다면, 집단 간 차이가 있다고 판단

ANOVA 검정의 가설
- ANOVA 검정의 경우, t-검정과는 다르게 가설이 고정되어 있다. (t-검정은 차이가 크다 작다, 있다 없다 중 하나를 설정할 수 있었지만 ANOVA는 평균이 같다와 적어도 하나 이상은 다르다로 고정됨)
- 귀무가설: 모든 집단의 평균이 같다
- 대립가설: 적어도 하나의 집단 평균은 다르다
F값 = 집단간분산 / 집단내분산

ANOVA 종류

	2개 이하 비교 (t-검정)	3개 이상 비교 (F-검정)
집단 평균 vs 기준값	단일표본 t-검정
집단 간 비교 (A vs B / A vs B vs C)	이표본 t-검정 (독립표본 t-검정)	일원 ANOVA
집단 간 비교 (A vs A’ vs B vs B’)		이원 ANOVA
동일 집단의 전후 비교	대응표본 t-검정	반복측정 ANOVA

일원 ANOVA (One-way ANOVA)
- 서로 다른 3개 이상의 그룹의 평균을 비교할 때 적용되는 검정방법 (A vs B vs C)
- 독립표본 t-검정에서 그룹 수가 1개 이상 더 늘어났을 때 적용

이원 ANOVA (two-way ANOVA)
- 그룹을 나누는 기준이 2가지이고, 그룹 간의 평균을 비교할 때 적용
- 그룹을 2가지 기준으로 나눈 뒤 각각의 기준으로 인해 차이가 발생하는지, 두 기준의 상호작용효과로 차이가 발생하는지 확인할 수 있음

이원 ANOVA 검정에서는 두 기준의 상호작용 효과에 따른 차이를 같이 살펴본다는 점이 일원 ANOVA와 차이가 나타나는 점

위 결과에서 맨 오른쪽 컬럼(p-value)을 보면, 반:성별의 상호작용에서만 p-value가 0.05보다 작은 수치를 보인다
즉 반, 성별에 각각에 의한 차이는 나타나지 않았지만 반:성벽의 상호작용에 의한 평균 차이는 발생한다고 결론을 내릴 수 있다

반복측정 ANOVA (RM ANOVA, Repeated Measure ANOVA)
- 대응표본 t-검정과 비슷하게 한 집단을 대상으로 여러번 데이터를 구해서 차이를 비교하는 검정 방법

각 행이 한 사람에서 나오는 데이터! (일원, 이원 ANOVA와의 차이점)

결과를 보면 맨 오른쪽 Pr > F (= p-value) 를 보면 0에 근사한 값을 갖는다
따라서 식단별로 몸무게 감소에 차이가 있었음을 알 수 있다

ANOVA 검정의 전제조건
- 정규성, 등분산성의 경우 t-test일 때와 동일한 방식으로 검정하며, 독립성은 데이터를 수집하는 단계에서 확보되어야 하는 조건임
- 구형성은 반복측정 ANOVA일 때만 검정하는 것

위의 예시를 보고 참고하자면,

독립성은 은중, 상연, 상학, 재준, 세리 각각이 모두 독립적이라는 것 (은중이의 식단 A,B,C 간의 데이터는 서로 독립적이지 않음)

구형성은 식단A-B, B-C, C-A 각각의 열 간의 분산이 같아야한다는 것 (각 반복 조건 간 차이 점수들의 분산이 동일해야함)

- 사후검정

ANOVA 검정에서는 차이의 유무만 확인할 수 있다
여러 개의 집단 중 어느 집단끼리 차이가 발생했는지 알아내기 위해서는 사후 검정의 절차가 필요하다

- 다중검정

여러 개의 가설을 동시에 검정(test) 하는 것

다중검정의 고질적인 문제
- 여러 개의 가설을 동시에 검정할 때, 제 1종 오류 (귀무가설을 잘못 기각할 확률) 가 누적되어 전체 오류율이 커지는 현상이 발생할 수 있음

- 카이제곱 검정

범주형 변수를 비교할 때 사용되는 검정방법으로 기대와 일치하는지 검정하는 적합도 검정과 두 범주형 변수의 독립성을 확인하는 독립성 검정이 있다

카이제곱 적합도 검정 (Goodness-of-Fit Test)

한 집단의 여러 범주 분포가 기대와 일치하는지 검정할 때 사용

사용 조건
- 하나의 범주형 변수에 3개 이상의 범주가 있고
- 각 범주가 예상된 비율(기댓값)과 다른지 검정
예시
- 고객이 A/B/C 브랜드를 고른 비율이 모두 1:1:1일까?
- A:40명, B:30명, C:30명 -> 기댓값은 33.3명씩
귀무가설
- 관측된 분포는 기대 분포와 같다

카이제곱 독립성 검정

두 범주형 변수 간에 관련이 있는지(독립인지)를 검정할 때 사용

사용 조건
- 교차표(Contingency Table)로 표현 가능한 두 범주형 변수
- 행과 열 변수 간 관계(연관성)이 있는지를 봄
예시
- 성별과 구매 여부가 관련이 있을까?
- 카테고리별 선호하는 색상이 있나?
귀무가설
- 성별과 구매 여부는 서로 독립이다 (즉, 성별은 구매 여부에 영향을 주지 않는다)
- 카테고리와 색상은 서로 독립이다

- 상관관계

1. 수치형 변수일 때

산점도
- 수치형 변수 2개는 x축과 y축으로 이루어진 산점도로 표현할 수 있다
- 2개 변수의 관계성을 상관이라고 하며, 2개의 변수 또는 데이터 사이의 관계성을 의미함
- -> 상관이 있다고 해서 원인과 결과를 뜻하는 인과관계가 있는지까지는 알 수 없음!!

상관계수의 종류
- 피어슨 상관계수
  - 두 변수 사이 선형관계의 정도와 방향을 수치로 표현하는 지표
  - 두 변수를 scatter plot에 그려봤을 때 직선형태의 관계가 나왔을 때 사용하는 것이 적합
  - (비선형인 경우, 스피어만 상관계수 혹은 켄달의 타우 상관계수를 사용)
- 스피어만 순위상관계수
  - 두 변수의 순위 간 상관관계를 측정하는 지표 -> 값 자체보다는 순위차이에 집중
  - 순위형 데이터이거나 연속형 데이터가 비선형일 때 사용
- 켄달의 타우
  - 두 변수 간의 순위 일치 정도를 측정하는 지표 -> 즉, 관측치쌍 간의 순서가 서로 일치하는지, 불일치하는지를 비교하여 계산
  - 순위형 데이터이거나 연속형 데이터가 비선형일 때 사용

2. 범주형 변수일 때

Cramer's V (크래머 V계수)
- 범주형 변수 간의 연관성 정도를 측정하는 지표
- 범주형 변수의 교차표를 기반으로 계산

카이제곱 독립성 검정이 범주형 변수의 독립성 유무를 확인하는 거라면, Cramer's V는 독립적이지 않은 두 범주형 변수의 상관관계 정도를 확인

'통계학 공부' 카테고리의 다른 글

통계학 세션 이론 2일차 (확률분포, 정규분포) (0)	2026.02.18
통계학 세션 이론 1일차 (데이터 유형, 기술통계, 추론통계) (0)	2026.02.18
가설검정 실습 (단일, 독립, 대응표본 t검정) (1)	2026.02.18
가설검정 (단일, 독립, 대응표본 t검정) (1)	2026.02.17
선형회귀, 다항회귀, 스플라인회귀, 피어슨 / 비모수 / 상호정보 상관계수 (1)	2026.01.10

현재글ANOVA, 카이제곱 검정과 상관분석

myun0506 님의 블로그

myun0506 님의 블로그 입니다.

#파이썬 #Python #데이터분석 #DataAnalysis #판다스 #Pandas #구글코랩 #GoogleColab #데이터시각화 #코딩교육, 서브쿼리 #CTE #SQL #데이터분석 # 윈도우함수, #파이썬 #데이터분석 #코딩교육 #구글코랩 #파이썬기초 #파이썬강좌 #데이터분석입문,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

myun0506 님의 블로그