[ 통계학 세션 ]
- 데이터의 유형
- 수치형 / 양적 데이터 (Numerical 수치형 / Quantitative 양적)
- 이산형 (Discrete): 셀 수 있는 정수값 (고객 수, 불량품 개수, 클릭 횟수)
- 연속형 (Continuous): 측정 가능한 실수값 (키, 몸무게, 온도, 풍속)
- 범주형 / 질적 데이터 (Categorical 범주형 / Qualitative 질적)
- 명목형 (Nominal): 순서 없는 범주 (성별, 혈액형, 지역)
- 순서형 (Ordinal): 순서 있는 범주 (수능 등급, 만족도 등급, 선호도 순위)
- 이진형 (Binary): 두 개의 값 (0/1 혹은 참/거짓)만을 갖는 범주형 데이터의 특수한 경우
- 기술통계
- 위치 추정
- 평균
- 산술평균: 데이터를 모두 더한 값을 데이터 수로 나누어 구한 평균
- 절사평균: 값들을 크기 순으로 정렬한 후, 양끝에서 일정 개수의 값들을 삭제한 후 남은 값들을 가지고 구한 평균. 정해진 개수의 극단값을 제외한 나머지 값들의 평균
- 가중평균: 각 데이터 값에 가중치를 구한 값들의 총합을 다시 가중치의 총합으로 나눈 평균
- 중간값 / 중앙값
- 데이터를 일렬로 정렬했을 때, 한 가운데에 위치하는 값. 만약 데이터 개수가 짝수라면 그 중간값은 실제 데이터 값이 아닌 가운데 있는 두 값의 평균.
- 특잇값 / 극단값 (이상치)
- 특잇값은 어떤 데이터 집합에서 다른 값들과 매우 멀리 떨어져 있는 값을 의미
- 특잇값은 데이터 값 자체가 유효하지 않다거나 잘못되었다는 뜻이 아님
- 평균
- 변이 추정
- 표준편차와 관련 추정값들
- 백분위수에 기초한 추정
- 데이터 분포 탐색
- 백분위수와 상자그림
- 순서통계량: 최소에서 최대까지 정렬된 데이터 값에 따른 계량형. 정렬(순위) 데이터를 나타내는 통계량
- 백분위수: 어떤 값들의 P퍼센트가 이 값 혹은 더 작은 값을 갖고, (100-P)퍼센트가 이 값 혹은 더 큰 값을 갖도록 하는 값
- 사분위범위(IQR): 75번째 백분위수와 25번째 백분위수 사이의 차이. 변이를 측정하는 가장 대표적인 방법
- 도수분포표와 히스토그램
- 도수분포표: 어떤 구간 / 빈에 해당하는 수치 데이터 값들의 빈도를 나타내는 기록. 변수의 범위를 동일한 크기의 구간으로 나눈 다음, 각 구간마다 몇 개의 변수 값이 존재하는지 보여주기 위해 사용. 구간의 크기가 너무 크면 분포를 나타내는 중요한 특징을 놓칠 수 있고, 반대로 너무 작으면 결과가 너무 쪼개져 있어서 더 큰 그림을 볼 수가 없게 됨
- 히스토그램: x축은 구간들을, y축은 해당 구간별 빈도수를 나타내는 도수분포표의 그림. 도수분포표를 시각화하는 방법.
- 밀도추정
- 밀도 그림(Density Plot): 히스토그램을 부드러운 곡선으로 나타낸 그림. 커널밀도추정을 주로 사용. 히스토그램과 가장 큰 차이는 바로 y축 값의 단위로 밀도 그림에서는 개수가 아닌 비율을 표시
- 바이올린 도표: 상자그림을 보완한 형태로, y축을 따라 밀도추정 결과를 동시에 시각화. 밀도 분표 모양을 좌우대칭으로 서로 겹쳐지도록 해놓고 보면 바이올린을 닮은 모양으로 상자그림에서는 보이지 않는 데이터 분포를 볼 수 있다는 것이 장점
- 백분위수와 상자그림
- 이진 데이터와 범주 데이터 탐색
- 최빈값 (Mode)
- 막대도표: 범주형 자료를 보여줄 때 주로 사용. 히스토그램과 매우 유사
- 다만 막대도표에서 x축은 각 요인변수의 서로 다른 범주들을 나타내는 반면,
- 히스토그램은 x축은 수치적으로 나타낼 수 있는 하나의 변수 값을 의미
- 히스토그램에서 막대들은 일반적으로 서로 붙어있고, 중간에 틈이 있다는 것은 그 부분에 해당하는 값들이 존재하지 않는다는 것을 의미. 이와 달리 막대도표에서 막대들은 서로 떨어져있음.
- 파이그림: 각 범주의 빈도수 혹은 비율을 원의 부채꼴 모양으로 나타낸 그림. 막대도표 대신 사용할 수 있으나 시각적으로 효과적이지 않다는 이유도 잘 사용하지 않기도 함.
- 상관관계
- 산점도: x축과 y축이 서로 다른 두 개의 변수를 나타내는 도표
- 추론통계
- 통계적 추론 또는 추론통계는 모집단에 대한 어떠한 미지의 양상을 알기 위해 통계학을 이용하여 추측하는 과정을 지칭.
- 표본으로 전체를 추정하는 것
- 목적: 전수조사는 시간 / 비용 / 노력의 한계가 있으니 일부(표본)를 뽑아 전체(모집단)를 추정
- 주의사항: 일부(표본)을 잘 뽑아야함
'통계학 공부' 카테고리의 다른 글
| 통계학 세션 이론 3일차 (예언구간 vs 신뢰구간, 가설검정) (0) | 2026.02.18 |
|---|---|
| 통계학 세션 이론 2일차 (확률분포, 정규분포) (0) | 2026.02.18 |
| ANOVA, 카이제곱 검정과 상관분석 (0) | 2026.02.18 |
| 가설검정 실습 (단일, 독립, 대응표본 t검정) (1) | 2026.02.18 |
| 가설검정 (단일, 독립, 대응표본 t검정) (1) | 2026.02.17 |