통계학 세션 이론 5일차 (상관관계와 인과관계, A/B Test)

통계학 공부

통계학 세션 이론 5일차 (상관관계와 인과관계, A/B Test)

myun0506 2026. 2. 18. 16:05

[ 오후 통계학 세션 ]

- 상관관계

상관계수는 수치형 변수끼리만 계산 가능
범주형(성별, 지역, 학과 등)에는 적용 불가
- 교차표, 카이제곱 검정, 평균 차이 검정 등 사용으로 범주형 상관관계 분석
산점도의 중요성
- 상관 분석의 출발점은 상관계수(r)이지만 상관계수만 보고 판단하면 위험
  - 비선형 관계
  - 이상치 하나가 만든 가짜 상관
  - 서로 다른 두 패턴의 혼합
- 상관계수 범위 : -1<=r<=+1
- 숫자는 왜곡될 수 있지만 그림은 직관적으로 관계를 보여줌!
- 상관계수는 딱 두가지를 알려줌
  - 방향 (+/-)
  - 강도 (약/중/강)
피어슨 상관계수
- 두 변수의 선형 관계 강도를 나타냄
- 공분산을 각 변수의 표준편차로 나눈 값
- r = +1 -> 완벽한 양의 상관
- r = -1 -> 완벽한 음의 상관
- r = 0 -> 선형 관계 없음
  - 선형관계가 없을뿐, 곡선 관계는 가능함!

이상치가 문제인 이유
- 상관계수 r은 평균과 분산 기반
- 평균과 분산은 이상치 하나만 들어와도 크게 흔들림
- 따라서 상관계수도 이상치에 매우 민감
- --> 산점도 확인 필요!!
비모수 상관계수
- 스피어만: 순위(rank)기반 -> 값이 아니라 순서만 반영
- 장점
  - 이상치에 덜 민감
  - 곡선 (비선형) 관계도 잡아낼 수 있음

- 상관관계와 인과관계

상관이 있다고 해서 원인이라 단정하지 않는다
항상 교란변수 존재 가능성을 의심해야한다

교란변수
- 두 변수 모두에 영향을 주어 잘못된 상관을 만들어내는 숨은 요인
- 데이터를 왜곡시키는 극단값(outlier)
무작위 통제 실험 (Randomized Controlled Trial, RCT) = A/B 테스트
- 인과를 밝히려면 두 집단이 원인만 달라야하고, 나머지는 같아야함
- 다른 변수들은 통제하거나 무작위화, 변경 효과만 남김
- 핵심 조건
  - 변수 통제
    - 홈화면 외 요소는 동일
    - 결과에 영향을 줄 수 있는 요인 제거
  - 무작위 배정
    - 사용자 성향 차이 제거 (사용자 특성 평균화)
    - 통제 불가능한 변수 완화
- 좋은 가설의 3요소
  - 변경사항
  - 이유
  - 기대결과
- 지표의 세가지 종류
  - 목표지표
    - 궁극적인 목표
    - 중요하지만 측정이 어려움
    - 한계
      - 설문은 비용/시간 큼
      - 후행 지표는 둔감
  - 요인지표
    - 목표 지표와 상관
    - 더 민감하게 반응
    - ex) 추천곡 건너뛰기 비율, 반복 재생 비율, 저장 비율
    - but, 항상 목표지표와 직결되진 않음 (검증 필요)
  - 방어지표
    - 부정적 영향 감지
    - 전체 UX 보호
    - ex) 음악 다양성 감소, 시스템 성능 저하
통계적 인과 추론
- 데이터를 가지고 최대한 실험을 흉내내는 방식
- 완벽하지 않지만, 인과 효과를 추정할 수 있음
- 주요 방법
  - 매칭
    - 비슷한 특성을 가진 집단끼리 짝지어 비교
  - 자연실험
    - 세상에서 우연히 발생한 사건을 실험처럼 활용
  - 차분의 차분
    - 정책 도입 전후 변화를 정책 지역 vs 비정책 지역으로 비교

'통계학 공부' 카테고리의 다른 글

확률분포, 표준화, 신뢰구간 이론/실습 (1)	2026.02.19
ANOVA, 카이제곱 검정과 상관분석 실습 (0)	2026.02.18
통계학 세션 이론 4일차 (가설검정 심화) (0)	2026.02.18
통계학 세션 이론 3일차 (예언구간 vs 신뢰구간, 가설검정) (0)	2026.02.18
통계학 세션 이론 2일차 (확률분포, 정규분포) (0)	2026.02.18

현재글통계학 세션 이론 5일차 (상관관계와 인과관계, A/B Test)

myun0506 님의 블로그

myun0506 님의 블로그 입니다.

#파이썬 #Python #데이터분석 #DataAnalysis #판다스 #Pandas #구글코랩 #GoogleColab #데이터시각화 #코딩교육, #파이썬 #데이터분석 #코딩교육 #구글코랩 #파이썬기초 #파이썬강좌 #데이터분석입문, 서브쿼리 #CTE #SQL #데이터분석 # 윈도우함수,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

myun0506 님의 블로그

통계학 세션 이론 5일차 (상관관계와 인과관계, A/B Test)

'통계학 공부' 카테고리의 다른 글

'통계학 공부'의 다른글

티스토리툴바

통계학 세션 이론 5일차 (상관관계와 인과관계, A/B Test)

'통계학 공부' 카테고리의 다른 글

'통계학 공부'의 다른글

관련글

티스토리툴바