통계학 공부

통계학 세션 이론 2일차 (확률분포, 정규분포)

myun0506 2026. 2. 18. 15:27

[ 오후 통계학 이론 세션 ]

- 이진 데이터와 범주 데이터 탐색

  • 히스토그램에서 막대들은 일반적으로 서로 붙어있고, 중간에 틈이 있ㄷ는 것은 그 부분에 해당하는 값들이 존재하지 않는다는 것을 의미
  • 막대도표에서 막대들은 서로 떨어져있음

- 확률

  • 통계적 실험: '비슷한 사건이 반복'될 때, '여러가지 가능한 결과'를 알 수 있지만 '정확히 무슨 결과'가 발생할 지는 모를 때, 이러한 특성을 갖는 문제가 바로 통계학의 연구 및 응용 대상이며 통계적 실험이라 지칭
  • 결과: 실제로 관측된 딱 하나의 경우
  • 사건: 표본 공간의 한 부분집합 / 그 결과들이 모여있는 집합 -> 지도 위의 점 하나
  • 표본공간: 통계적 실험의 모든 가능한 결과의 집합 / 일어날 수 있는 모든 경우의 전체 (보통 중괄호 {}로 표현) -> 지도 전체 (모든 경우의 수)
    • 이산형 표본공간: 표본공간의 원소개수가 유한하거나, 무한하나 셀 수 있는 경우
      • ex) 막걸리 공장.. 한 기계... 제품 반복 생산... 정상품 또는 불량품 중 하나지만 무엇이 될지는 알 수 없음
        • 사건 = 정상품 혹은 불량품 / 표본공간 = {정상품, 불량품}
    • 연속형 표본공간: 표본공간의 원소개수가 무한하면서 셀 수 없는 경우
      • ex) 매월 마지막주 일요일... 알볼로 단호박 피자.. 1박2일.. 피자가 집에 배달되는데 걸리는 시간은 대개 20분 이내이지만 정확히 알 수 없음..
        • 사건 = {(0, 20)} / 표본공간 = {(0, ♾️)}

확률은 단기적으로는 불확실하지만, 장기적으로는 규칙이 드러남 (큰 수의 법칙 / 대수의 법칙)

 

- 확률변수 (Random Variable)

  • 불확실성을 값으로 다루는 도구 / 불확실성을 숫자로 번역 / 사건을 숫자로 번역하는 도구 / 표본공간의 각 원소에 하나의 실수값을 대응시켜 주는 함수
    • 이산형 확률변수: 확률변수의 가능한 값들이 유한개 또는 무한개이나 셀 수 있는 경우
      • 값이 뚝뚝 끊겨 있음
      • ex) 주사위 눈(1~6), 동정(앞=1, 뒤=0), 하루 방문자 수
    • 연속형 확률변수: 확률변수의 가능한 값들이 유한개 또는 무한개이며 셀 수 없는 경우
      • 값이 무한히 이어짐
      • ex) 키(172.4cm), 체류시간(12.7분), 결제금액(15,320원)
  • 실제로 관찰된 값 -> 실현값(realization)
    • 기억: 사건을 데이터로 저장하기 위해 숫자로 바꾼다

 

  • 기댓값
    • 확률적으로 기대되는 평균값
    • 오랫동안 반복했을 때 수렴하는 값
    • 가장 그럴듯한 평균 수준
      • 하지만 단기 불확실성은 따로 고려해야함
기대값은 한 번의 결과가 아니라, 많은 시도(대수의 법칙/표본크기)의 평균

 

  • 평균만 보면 같은 것처럼 보여도 데이터의 퍼짐은 전혀 다를 수 있음
  • 그래서 평균만 보면 착시 가능
  • 분산과 표준편차를 봐야 흔들림과 위험을 알 수 있음
  • 분산과 표준편차가 클수록 데이터는 불안정

 

- 정규분포

  • 68-95-99 법칙

- 표준화 (z-score)

  • 데이터마다 평균과 표준편차가 다름
  • 원점수만 비교하면 불공정

z는 서로 다른 단위를 같은 잣대로 환산하는 눈금자