통계학 공부

통계학 세션 이론 1일차 (데이터 유형, 기술통계, 추론통계)

myun0506 2026. 2. 18. 15:25

[ 통계학 세션 ]

- 데이터의 유형

  • 수치형 / 양적 데이터 (Numerical 수치형 / Quantitative 양적)
    • 이산형 (Discrete): 셀 수 있는 정수값 (고객 수, 불량품 개수, 클릭 횟수)
    • 연속형 (Continuous): 측정 가능한 실수값 (키, 몸무게, 온도, 풍속)
  • 범주형 / 질적 데이터 (Categorical 범주형 / Qualitative 질적)
    • 명목형 (Nominal): 순서 없는 범주 (성별, 혈액형, 지역)
    • 순서형 (Ordinal): 순서 있는 범주 (수능 등급, 만족도 등급, 선호도 순위)
    • 이진형 (Binary): 두 개의 값 (0/1 혹은 참/거짓)만을 갖는 범주형 데이터의 특수한 경우

 

- 기술통계

  • 위치 추정
    • 평균
      • 산술평균: 데이터를 모두 더한 값을 데이터 수로 나누어 구한 평균
      • 절사평균: 값들을 크기 순으로 정렬한 후, 양끝에서 일정 개수의 값들을 삭제한 후 남은 값들을 가지고 구한 평균. 정해진 개수의 극단값을 제외한 나머지 값들의 평균
      • 가중평균: 각 데이터 값에 가중치를 구한 값들의 총합을 다시 가중치의 총합으로 나눈 평균
    • 중간값 / 중앙값
      • 데이터를 일렬로 정렬했을 때, 한 가운데에 위치하는 값. 만약 데이터 개수가 짝수라면 그 중간값은 실제 데이터 값이 아닌 가운데 있는 두 값의 평균. 
    • 특잇값 / 극단값 (이상치)
      • 특잇값은 어떤 데이터 집합에서 다른 값들과 매우 멀리 떨어져 있는 값을 의미
      • 특잇값은 데이터 값 자체가 유효하지 않다거나 잘못되었다는 뜻이 아님
  • 변이 추정
    • 표준편차와 관련 추정값들
    • 백분위수에 기초한 추정
  • 데이터 분포 탐색
    • 백분위수와 상자그림
      • 순서통계량: 최소에서 최대까지 정렬된 데이터 값에 따른 계량형. 정렬(순위) 데이터를 나타내는 통계량
      • 백분위수: 어떤 값들의 P퍼센트가 이 값 혹은 더 작은 값을 갖고, (100-P)퍼센트가 이 값 혹은 더 큰 값을 갖도록 하는 값
      • 사분위범위(IQR): 75번째 백분위수와 25번째 백분위수 사이의 차이. 변이를 측정하는 가장 대표적인 방법
    • 도수분포표와 히스토그램
      • 도수분포표: 어떤 구간 / 빈에 해당하는 수치 데이터 값들의 빈도를 나타내는 기록. 변수의 범위를 동일한 크기의 구간으로 나눈 다음, 각 구간마다 몇 개의 변수 값이 존재하는지 보여주기 위해 사용. 구간의 크기가 너무 크면 분포를 나타내는 중요한 특징을 놓칠 수 있고, 반대로 너무 작으면 결과가 너무 쪼개져 있어서 더 큰 그림을 볼 수가 없게 됨
      • 히스토그램: x축은 구간들을, y축은 해당 구간별 빈도수를 나타내는 도수분포표의 그림. 도수분포표를 시각화하는 방법.
    • 밀도추정
      • 밀도 그림(Density Plot): 히스토그램을 부드러운 곡선으로 나타낸 그림. 커널밀도추정을 주로 사용. 히스토그램과 가장 큰 차이는 바로 y축 값의 단위로 밀도 그림에서는 개수가 아닌 비율을 표시
      • 바이올린 도표: 상자그림을 보완한 형태로, y축을 따라 밀도추정 결과를 동시에 시각화. 밀도 분표 모양을 좌우대칭으로 서로 겹쳐지도록 해놓고 보면 바이올린을 닮은 모양으로 상자그림에서는 보이지 않는 데이터 분포를 볼 수 있다는 것이 장점
  • 이진 데이터와 범주 데이터 탐색
    • 최빈값 (Mode)
    • 막대도표: 범주형 자료를 보여줄 때 주로 사용. 히스토그램과 매우 유사
      • 다만 막대도표에서 x축은 각 요인변수의 서로 다른 범주들을 나타내는 반면,
      • 히스토그램은 x축은 수치적으로 나타낼 수 있는 하나의 변수 값을 의미
      • 히스토그램에서 막대들은 일반적으로 서로 붙어있고, 중간에 틈이 있다는 것은 그 부분에 해당하는 값들이 존재하지 않는다는 것을 의미. 이와 달리 막대도표에서 막대들은 서로 떨어져있음.
      • 파이그림: 각 범주의 빈도수 혹은 비율을 원의 부채꼴 모양으로 나타낸 그림. 막대도표 대신 사용할 수 있으나 시각적으로 효과적이지 않다는 이유도 잘 사용하지 않기도 함.
  • 상관관계
    • 산점도: x축과 y축이 서로 다른 두 개의 변수를 나타내는 도표

 

- 추론통계

  • 통계적 추론 또는 추론통계는 모집단에 대한 어떠한 미지의 양상을 알기 위해 통계학을 이용하여 추측하는 과정을 지칭. 
  • 표본으로 전체를 추정하는 것
  • 목적: 전수조사는 시간 / 비용 / 노력의 한계가 있으니 일부(표본)를 뽑아 전체(모집단)를 추정
  • 주의사항: 일부(표본)을 잘 뽑아야함