[ 오후 통계학 세션 ]
- 상관관계
- 상관계수는 수치형 변수끼리만 계산 가능
- 범주형(성별, 지역, 학과 등)에는 적용 불가
- 교차표, 카이제곱 검정, 평균 차이 검정 등 사용으로 범주형 상관관계 분석
- 산점도의 중요성
- 상관 분석의 출발점은 상관계수(r)이지만 상관계수만 보고 판단하면 위험
- 비선형 관계
- 이상치 하나가 만든 가짜 상관
- 서로 다른 두 패턴의 혼합
- 상관계수 범위 : -1<=r<=+1
- 숫자는 왜곡될 수 있지만 그림은 직관적으로 관계를 보여줌!
- 상관계수는 딱 두가지를 알려줌
- 방향 (+/-)
- 강도 (약/중/강)
- 상관 분석의 출발점은 상관계수(r)이지만 상관계수만 보고 판단하면 위험
- 피어슨 상관계수
- 두 변수의 선형 관계 강도를 나타냄
- 공분산을 각 변수의 표준편차로 나눈 값
- r = +1 -> 완벽한 양의 상관
- r = -1 -> 완벽한 음의 상관
- r = 0 -> 선형 관계 없음
- 선형관계가 없을뿐, 곡선 관계는 가능함!

- 이상치가 문제인 이유
- 상관계수 r은 평균과 분산 기반
- 평균과 분산은 이상치 하나만 들어와도 크게 흔들림
- 따라서 상관계수도 이상치에 매우 민감
- --> 산점도 확인 필요!!
- 비모수 상관계수
- 스피어만: 순위(rank)기반 -> 값이 아니라 순서만 반영
- 장점
- 이상치에 덜 민감
- 곡선 (비선형) 관계도 잡아낼 수 있음

- 상관관계와 인과관계
상관이 있다고 해서 원인이라 단정하지 않는다
항상 교란변수 존재 가능성을 의심해야한다
- 교란변수
- 두 변수 모두에 영향을 주어 잘못된 상관을 만들어내는 숨은 요인
- 데이터를 왜곡시키는 극단값(outlier)
- 무작위 통제 실험 (Randomized Controlled Trial, RCT) = A/B 테스트
- 인과를 밝히려면 두 집단이 원인만 달라야하고, 나머지는 같아야함
- 다른 변수들은 통제하거나 무작위화, 변경 효과만 남김
- 핵심 조건
- 변수 통제
- 홈화면 외 요소는 동일
- 결과에 영향을 줄 수 있는 요인 제거
- 무작위 배정
- 사용자 성향 차이 제거 (사용자 특성 평균화)
- 통제 불가능한 변수 완화
- 변수 통제
- 좋은 가설의 3요소
- 변경사항
- 이유
- 기대결과
- 지표의 세가지 종류
- 목표지표
- 궁극적인 목표
- 중요하지만 측정이 어려움
- 한계
- 설문은 비용/시간 큼
- 후행 지표는 둔감
- 요인지표
- 목표 지표와 상관
- 더 민감하게 반응
- ex) 추천곡 건너뛰기 비율, 반복 재생 비율, 저장 비율
- but, 항상 목표지표와 직결되진 않음 (검증 필요)
- 방어지표
- 부정적 영향 감지
- 전체 UX 보호
- ex) 음악 다양성 감소, 시스템 성능 저하
- 목표지표
- 통계적 인과 추론
- 데이터를 가지고 최대한 실험을 흉내내는 방식
- 완벽하지 않지만, 인과 효과를 추정할 수 있음
- 주요 방법
- 매칭
- 비슷한 특성을 가진 집단끼리 짝지어 비교
- 자연실험
- 세상에서 우연히 발생한 사건을 실험처럼 활용
- 차분의 차분
- 정책 도입 전후 변화를 정책 지역 vs 비정책 지역으로 비교
- 매칭

'통계학 공부' 카테고리의 다른 글
| 확률분포, 표준화, 신뢰구간 이론/실습 (1) | 2026.02.19 |
|---|---|
| ANOVA, 카이제곱 검정과 상관분석 실습 (0) | 2026.02.18 |
| 통계학 세션 이론 4일차 (가설검정 심화) (0) | 2026.02.18 |
| 통계학 세션 이론 3일차 (예언구간 vs 신뢰구간, 가설검정) (0) | 2026.02.18 |
| 통계학 세션 이론 2일차 (확률분포, 정규분포) (0) | 2026.02.18 |