통계학 공부

통계학 세션 이론 4일차 (가설검정 심화)

myun0506 2026. 2. 18. 15:30

[ 오후 통계학 이론 세션 ]

 

- 신뢰구간

  • 신뢰구간 CI = 표본평균 +- (신뢰계수 * s/(n**2)
    • 표본수가 많아질수록 신뢰구간은 점점 더 좁고 정교해짐 -> 더 정확하게 예측할 수 있음

 

 

- 예언구간 vs 신뢰구간

  • 예언 구간
    • 다음 값 하나를 예측하는 범위
    • ex) 내일 들어올 손님 한 명의 결제 금액
    • 값 하나는 들쭉날쭉 --> 구간이 넓음 
  • 신뢰 구간
    • 모집단 평균을 추정하는 범위
    • ex) 고객 전체 평균 결제금액
    • 평균은 안정적 --> 구간이 좁음 

 

 

- 판정규칙

  • p<=alpha -> H0 기각
    • 효과없음 세계에서는 드문 결과 --> 유의미
  • p>alpha -> H0 기각 못함 (보류)
    • 효과없음 세계에서도 흔히 발생
    • H0를 증명한게 아님, 단지 버릴 근거 부족
  • 실무 연결
    • A/B 테스트
      • H0: 두 버튼 클릭률 같음
      • 데이터: 차이=3%, p=0.018<0.05 --> H0 기각 ( 두 버튼 클릭률 차이 있음)
    • 품질 관리
      • H0: 신공정 불량률이 기존과 같음
      • 데이터: 차이 큼, p=0.001<0.05 --> H0 기각 (공정이 달라졌다고 판단)

 

- 표본 개수에 따른 p-value 크기 비교

1. 표본이 많을수록 (n ↑ → SE ↓):

  • 분모인 불확실성(SE)이 작아짐
  • 똑같은 차이라도 분모가 작아지니 전체값인 t(검정통계량)는 커짐
  • t값이 커지면 분포의 꼬리쪽으로 멀리 밀려나므로, 그 바깥 면적인 p-value는 매우 작아짐
  • 결과적으로 작은 차이도 실제 효과일 가능성이 높다고 판정(유의함)하게 됨

2. 표본이 적을수록 (n  → SE ):

  • 분모인 불확실성이 커져서 t값이 작아짐
  • t값이 중심에 가까워지면 p-value는 커짐
  • 결론적으로 이 정도 차이는 우연히 발생할 수 있는 오차범위 내에 있다고 보수적으로 판단(유의하지 않음)하게 됨

3. 생활 비유

  • 운동 경기 
    • A팀 80점, B팀 78점
    • 점수 들쭉날쭉 (SE큼) -> 2점 차이, 우연일 수도?
    • 점수 안정적 (SE작음) -> 2점 차이도 의미있음
  • 시험 점수
    • 반 A 평균 85, 반 B 평균 80
    • 표본 적어서 점수 들쭉날쭉 -> 5점 차이, 우연일 수도?
    • 표본 많아서 점수 안정적 -> 5점 차이도 의미있음 
  • 분산이 크면 차이가 불확실
  • 분산이 작으면 같은 차이도 더 신뢰

4. 실무 연결

  • A/B 테스트 
    • 클릭률 5.1% vs 4.8% 
    • n=수천 -> SE 작음 -> 0.3% 차이도 유의미
    • n=수십 -> SE 큼 -> 0.3% 차이 우연일 수도
  • 신약 임상시험
    • 혈압 감소: 신약 -10 vs 위약 -2 
    • n이 많으면 유의미, n이 적으면 애매

 

- 신뢰구간과 가설검정의 관계

  • 두 집단 평균차(µA-µB)의 95% 신뢰구간이 0을 포함하지 않으면 -> 귀무가설 기각 (p<0.05 (양측)와 동치)

1. 생활 비유

  • 신뢰구간 = 지도 
    • 우리집이 이 동네 어디쯤 있다라고 영역을 그려줌
  • 가설검정 = GPS 경보
    • 만약 집이 이 좌표(0)라면, 내가 지금 있는 곳은 너무 멀리 벗어났다 (p<0.05) 라고 알려주는 것

2. 실무 연결

  • A/B 테스트 중간 보고
    • 신뢰구간: 전환율 차이 1%p~3%p, 0 포함 안됨
    • 검정: p=0.012 -> 귀무가설 기각 
  • 임상시험
    • 신뢰구간: 혈압 감소 효과 5~12mmHg (0 포함 안 됨)
    • 검정: p=0.004 -> 유의
  • -> 같은 결론을 다른 언어로 표현

 

- 검정 방법 정하기

 

1. 변수 유형 (데이터 종류)

  • 수치형 변수(양적) : 점수, 키, 몸무게, 매출액
    • 평균/분산으로 비교
  • 범주형 변수(질적) : 남/여, 광고 클릭/비클릭, 제품 A/B/C
    • 개수/비율로 비교

2. 표본 수 (집단 몇 개?)

  • 1표본: 한 집단 vs 기준값
    • 우리반 평균 키 = 170cm?
  • 2표본
    • 독립: 남 vs 여
    • 대응: 같은 사람 전/후 비교 (다이어트 전/후 체중)
  • 3집단 이상: A/B/C 조건 비교
    • 비료 종류에 따른 성장 차이?

3. 분포 성질 (수치형일때만)

  • 정규성? -> 종 모양인가? (Q-Q plot, histogram, K-S test, Shapiro-Wilk)
  • 등분산성? -> 집단 간 퍼짐이 비슷한가? (Levene test, Bartlett test)
  • 이상치/비대칭? -> 불리하다면 비모수 검정 고려

 

- 상황별 비모수검정 방법

  • 비모수는 "평균 차이"가 아니라 위치(중앙값)/순위 차이를 본다
  • 비모수 = 단순한 버전 아님!!!!
    • -> 평균 대신 순위/위치 비교 (질문 자체가 다름)
  • 정규성 p>=0.05면 무조건 t검정 아님!!!!
    • -> 이상치나 치우침 있으면 비모수가 안전

 

- ANOVA

  • F분포
    • F값: ANOVA에서 사용하는 검정통계량
      • 집단 간 분산 / 집단 내 분산 -> 이 비율이 클수록 집단 간 차이가 크다
      • 이렇게 계산된 F값은 F분포라는 확률분포를 따름
      • F분포: 두개의 독립적인 카이제곱 분포의 비율로 만들어지는 분포 
      • ANOVA 외에도 회귀분석, 분산비교 등 다양한 검정에서 사용됨
    • ANOVA는 3개 이상 집단의 평균 차이를 한번에 검정할 수 있는 방법이며 분산 구조를 분석함으로써 평균 차이를 판단!
  • F 분포와 기각역
    • F 분포 오른쪽 꼬리 영역이 기각역 
    • 관측된 F값이 임계값 (F critical) 을 넘으면 -> p<0.05 -> H0 기각 
    • 넘지 못하면 -> H0 기각 못함

 

  • 사후 검정 필요성
    • ANOVA 유의 (p<0.05) -> 적어도 한 쌍이 다르다
    • 하지만 어느 쌍이 다른지는 알려주지 않음
    • 따라서 사후 검정 필요
      • Tukey HSD: 모든 쌍 비교
      • Dunnett: 대조군 vs 여러 실험군 
      • Williams: 용량-반응 패턴에서 유리

- 비율/범주형 - 평균 대신 확률 비교

  • 범주형 데이터는 평균이 아니라 확률이 주인공
  • 이항검정: 한 범주 비율이 기준과 같은가?
  • 적합도검정: 전체 분포가 기준 분포와 같은가?
  • 독립성검정: 두 범주형 변수가 서로 연관 있는가?

 

  • 정규성
    • Shapiro-Wilk
      • H0 = 정규분포, p>=0.05 -> 정규 아님이라 말할 근거 부족
    • Q-Q plot
      • 데이터 분위수와 정규분포 분위수를 짝지어 점으로 그림
      • 점들이 대각선 직선 근처면 정규에 가까움 
  • 등분산성
    • Levene / Bartlett
    • 위배시 대안
      • 2집단: Welch t
      • 3집단 이상: Welch ANOVA

- 문제 5.