통계학 공부

통계학 세션 이론 5일차 (상관관계와 인과관계, A/B Test)

myun0506 2026. 2. 18. 16:05

[ 오후 통계학 세션 ]

 

- 상관관계 

  • 상관계수는 수치형 변수끼리만 계산 가능
  • 범주형(성별, 지역, 학과 등)에는 적용 불가 
    • 교차표, 카이제곱 검정, 평균 차이 검정 등 사용으로 범주형 상관관계 분석
  • 산점도의 중요성
    • 상관 분석의 출발점은 상관계수(r)이지만 상관계수만 보고 판단하면 위험
      • 비선형 관계
      • 이상치 하나가 만든 가짜 상관
      • 서로 다른 두 패턴의 혼합
    • 상관계수 범위 : -1<=r<=+1
    • 숫자는 왜곡될 수 있지만 그림은 직관적으로 관계를 보여줌!
    • 상관계수는 딱 두가지를 알려줌
      • 방향 (+/-)
      • 강도 (약/중/강)
  • 피어슨 상관계수 
    • 두 변수의 선형 관계 강도를 나타냄
    • 공분산을 각 변수의 표준편차로 나눈 값
    • r = +1 -> 완벽한 양의 상관
    • r = -1 -> 완벽한 음의 상관 
    • r = 0 -> 선형 관계 없음 
      • 선형관계가 없을뿐, 곡선 관계는 가능함!

 

  • 이상치가 문제인 이유
    • 상관계수 r은 평균과 분산 기반
    • 평균과 분산은 이상치 하나만 들어와도 크게 흔들림
    • 따라서 상관계수도 이상치에 매우 민감
    • --> 산점도 확인 필요!!
  • 비모수 상관계수
    • 스피어만: 순위(rank)기반 -> 값이 아니라 순서만 반영
    • 장점
      • 이상치에 덜 민감
      • 곡선 (비선형) 관계도 잡아낼 수 있음
       

 

- 상관관계와 인과관계

상관이 있다고 해서 원인이라 단정하지 않는다
항상 교란변수 존재 가능성을 의심해야한다
  • 교란변수
    • 두 변수 모두에 영향을 주어 잘못된 상관을 만들어내는 숨은 요인
    • 데이터를 왜곡시키는 극단값(outlier)
  • 무작위 통제 실험 (Randomized Controlled Trial, RCT) = A/B 테스트
    • 인과를 밝히려면 두 집단이 원인만 달라야하고, 나머지는 같아야함
    • 다른 변수들은 통제하거나 무작위화, 변경 효과만 남김
    • 핵심 조건
      • 변수 통제
        • 홈화면 외 요소는 동일
        • 결과에 영향을 줄 수 있는 요인 제거 
      • 무작위 배정 
        • 사용자 성향 차이 제거 (사용자 특성 평균화)
        • 통제 불가능한 변수 완화
    • 좋은 가설의 3요소
      • 변경사항
      • 이유 
      • 기대결과
    • 지표의 세가지 종류
      • 목표지표
        • 궁극적인 목표
        • 중요하지만 측정이 어려움 
        • 한계
          • 설문은 비용/시간 큼
          • 후행 지표는 둔감
      • 요인지표
        • 목표 지표와 상관
        • 더 민감하게 반응 
        • ex) 추천곡 건너뛰기 비율, 반복 재생 비율, 저장 비율
        • but, 항상 목표지표와 직결되진 않음 (검증 필요)
      • 방어지표
        • 부정적 영향 감지
        • 전체 UX 보호
        • ex) 음악 다양성 감소, 시스템 성능 저하 
  • 통계적 인과 추론
    • 데이터를 가지고 최대한 실험을 흉내내는 방식
    • 완벽하지 않지만, 인과 효과를 추정할 수 있음
    • 주요 방법
      • 매칭
        • 비슷한 특성을 가진 집단끼리 짝지어 비교
      • 자연실험
        • 세상에서 우연히 발생한 사건을 실험처럼 활용
      • 차분의 차분
        • 정책 도입 전후 변화를 정책 지역 vs 비정책 지역으로 비교