
F값의 위치에 따라 그 이상을 받을 확률이 p-value가 되는 것이고 이때부턴 다른 가설검정과 같이 유의수준과 비교해 귀무가설을 기각할지 채택할지 정하게 되는 것
- ANOVA(Analysis of Variance, 분산분석)
집단이 3개 이상일 때의 집단의 평균 차이 비교
비교 대상은 평균의 차이이지만 비교하는 과정에서 분산이 쓰이므로 분산분석으로 표현
- ANOVA의 원리 (일원분산분석, One-way ANOVA)
- 집단 내에서의 분산과 집단 간의 분산을 비교하는 방식
- 집단 내에서의 분산보다 집단 간의 분산이 더 크다면, 집단 간 차이가 있다고 판단

- ANOVA 검정의 가설
- ANOVA 검정의 경우, t-검정과는 다르게 가설이 고정되어 있다. (t-검정은 차이가 크다 작다, 있다 없다 중 하나를 설정할 수 있었지만 ANOVA는 평균이 같다와 적어도 하나 이상은 다르다로 고정됨)
- 귀무가설: 모든 집단의 평균이 같다
- 대립가설: 적어도 하나의 집단 평균은 다르다
- F값 = 집단간분산 / 집단내분산

- ANOVA 종류
| 2개 이하 비교 (t-검정) | 3개 이상 비교 (F-검정) | |
| 집단 평균 vs 기준값 | 단일표본 t-검정 | |
| 집단 간 비교 (A vs B / A vs B vs C) | 이표본 t-검정 (독립표본 t-검정) | 일원 ANOVA |
| 집단 간 비교 (A vs A’ vs B vs B’) | 이원 ANOVA | |
| 동일 집단의 전후 비교 | 대응표본 t-검정 | 반복측정 ANOVA |
- 일원 ANOVA (One-way ANOVA)
- 서로 다른 3개 이상의 그룹의 평균을 비교할 때 적용되는 검정방법 (A vs B vs C)
- 독립표본 t-검정에서 그룹 수가 1개 이상 더 늘어났을 때 적용

- 이원 ANOVA (two-way ANOVA)
- 그룹을 나누는 기준이 2가지이고, 그룹 간의 평균을 비교할 때 적용
- 그룹을 2가지 기준으로 나눈 뒤 각각의 기준으로 인해 차이가 발생하는지, 두 기준의 상호작용효과로 차이가 발생하는지 확인할 수 있음

이원 ANOVA 검정에서는 두 기준의 상호작용 효과에 따른 차이를 같이 살펴본다는 점이 일원 ANOVA와 차이가 나타나는 점

위 결과에서 맨 오른쪽 컬럼(p-value)을 보면, 반:성별의 상호작용에서만 p-value가 0.05보다 작은 수치를 보인다
즉 반, 성별에 각각에 의한 차이는 나타나지 않았지만 반:성벽의 상호작용에 의한 평균 차이는 발생한다고 결론을 내릴 수 있다
- 반복측정 ANOVA (RM ANOVA, Repeated Measure ANOVA)
- 대응표본 t-검정과 비슷하게 한 집단을 대상으로 여러번 데이터를 구해서 차이를 비교하는 검정 방법

각 행이 한 사람에서 나오는 데이터! (일원, 이원 ANOVA와의 차이점)

결과를 보면 맨 오른쪽 Pr > F (= p-value) 를 보면 0에 근사한 값을 갖는다
따라서 식단별로 몸무게 감소에 차이가 있었음을 알 수 있다
- ANOVA 검정의 전제조건
- 정규성, 등분산성의 경우 t-test일 때와 동일한 방식으로 검정하며, 독립성은 데이터를 수집하는 단계에서 확보되어야 하는 조건임
- 구형성은 반복측정 ANOVA일 때만 검정하는 것

위의 예시를 보고 참고하자면,
독립성은 은중, 상연, 상학, 재준, 세리 각각이 모두 독립적이라는 것 (은중이의 식단 A,B,C 간의 데이터는 서로 독립적이지 않음)
구형성은 식단A-B, B-C, C-A 각각의 열 간의 분산이 같아야한다는 것 (각 반복 조건 간 차이 점수들의 분산이 동일해야함)

- 사후검정
ANOVA 검정에서는 차이의 유무만 확인할 수 있다
여러 개의 집단 중 어느 집단끼리 차이가 발생했는지 알아내기 위해서는 사후 검정의 절차가 필요하다



- 다중검정
여러 개의 가설을 동시에 검정(test) 하는 것
- 다중검정의 고질적인 문제
- 여러 개의 가설을 동시에 검정할 때, 제 1종 오류 (귀무가설을 잘못 기각할 확률) 가 누적되어 전체 오류율이 커지는 현상이 발생할 수 있음



- 카이제곱 검정
범주형 변수를 비교할 때 사용되는 검정방법으로 기대와 일치하는지 검정하는 적합도 검정과 두 범주형 변수의 독립성을 확인하는 독립성 검정이 있다
- 카이제곱 적합도 검정 (Goodness-of-Fit Test)
한 집단의 여러 범주 분포가 기대와 일치하는지 검정할 때 사용
- 사용 조건
- 하나의 범주형 변수에 3개 이상의 범주가 있고
- 각 범주가 예상된 비율(기댓값)과 다른지 검정
- 예시
- 고객이 A/B/C 브랜드를 고른 비율이 모두 1:1:1일까?
- A:40명, B:30명, C:30명 -> 기댓값은 33.3명씩
- 귀무가설
- 관측된 분포는 기대 분포와 같다
- 카이제곱 독립성 검정
두 범주형 변수 간에 관련이 있는지(독립인지)를 검정할 때 사용
- 사용 조건
- 교차표(Contingency Table)로 표현 가능한 두 범주형 변수
- 행과 열 변수 간 관계(연관성)이 있는지를 봄
- 예시
- 성별과 구매 여부가 관련이 있을까?
- 카테고리별 선호하는 색상이 있나?
- 귀무가설
- 성별과 구매 여부는 서로 독립이다 (즉, 성별은 구매 여부에 영향을 주지 않는다)
- 카테고리와 색상은 서로 독립이다

- 상관관계
1. 수치형 변수일 때
- 산점도
- 수치형 변수 2개는 x축과 y축으로 이루어진 산점도로 표현할 수 있다
- 2개 변수의 관계성을 상관이라고 하며, 2개의 변수 또는 데이터 사이의 관계성을 의미함
- -> 상관이 있다고 해서 원인과 결과를 뜻하는 인과관계가 있는지까지는 알 수 없음!!


- 상관계수의 종류
- 피어슨 상관계수
- 두 변수 사이 선형관계의 정도와 방향을 수치로 표현하는 지표
- 두 변수를 scatter plot에 그려봤을 때 직선형태의 관계가 나왔을 때 사용하는 것이 적합
- (비선형인 경우, 스피어만 상관계수 혹은 켄달의 타우 상관계수를 사용)
- 스피어만 순위상관계수
- 두 변수의 순위 간 상관관계를 측정하는 지표 -> 값 자체보다는 순위차이에 집중
- 순위형 데이터이거나 연속형 데이터가 비선형일 때 사용
- 켄달의 타우
- 두 변수 간의 순위 일치 정도를 측정하는 지표 -> 즉, 관측치쌍 간의 순서가 서로 일치하는지, 불일치하는지를 비교하여 계산
- 순위형 데이터이거나 연속형 데이터가 비선형일 때 사용
- 피어슨 상관계수

2. 범주형 변수일 때
- Cramer's V (크래머 V계수)
- 범주형 변수 간의 연관성 정도를 측정하는 지표
- 범주형 변수의 교차표를 기반으로 계산

카이제곱 독립성 검정이 범주형 변수의 독립성 유무를 확인하는 거라면, Cramer's V는 독립적이지 않은 두 범주형 변수의 상관관계 정도를 확인
'통계학 공부' 카테고리의 다른 글
| 통계학 세션 이론 2일차 (확률분포, 정규분포) (0) | 2026.02.18 |
|---|---|
| 통계학 세션 이론 1일차 (데이터 유형, 기술통계, 추론통계) (0) | 2026.02.18 |
| 가설검정 실습 (단일, 독립, 대응표본 t검정) (1) | 2026.02.18 |
| 가설검정 (단일, 독립, 대응표본 t검정) (1) | 2026.02.17 |
| 선형회귀, 다항회귀, 스플라인회귀, 피어슨 / 비모수 / 상호정보 상관계수 (1) | 2026.01.10 |