[데이터 전처리 / 시각화 1-1]
- Series와 DataFrame 기본 구조 + dtype 이해
- Series 객체 (단일 열 느낌)
- 1차원 (한 줄/한 열 느낌)
- index가 자동으로 붙음
- DataFrame 객체 (표)
- 2차원 (행/열)
- 컬럼 이름이 피처 (Feature)


- 데이터 타입(dtype) 5종 맛보기
- 수치형 (Numeric Types): int, float
- 문자/범주형 (Text / Categorical Types): object/string/category
- 불리언 (Boolean Type): bool
- 날짜/시간 (Datetime Types): datetime64
- 결측치/널 값: NaN, None
- dtype 확인: df.dtypes
- 결측치 확인: df.isna().sum()
- 문제 있는 데이터를 분석 가능하게 고치기 (전처리 핵심)
- 날짜(date) 통일 -> datetime으로 변환
- errors="coerce": 변환 안되면 NaT(결측)로 처리
- format="mixed": 여러가지 날짜 포맷이 섞여있을 때 다른 포맷도 날짜형으로 처리

- price 정리: "원","," 제거 후 숫자로 변환

- qty 정리: 숫자로 변환

- paid 정리: TRUE/FALSE/True 혼합 -> bool로 통일

- 결측치 처리 (price나 qty가 없으면 매출 계산이 안되니 0으로 채운다)

- 파생 피처 만들기: sales(매출) = price*qty

- 데이터 불러오기 및 저장 (CSV, Excel, JSON)
- CSV 파일 저장하기 : df.to_csv (df.to_excel, df.to_json)
- CSV 파일 읽기 : pd.read_csv (pd.read_excel, pd.read_json)

'데이터 전처리 및 시각화' 카테고리의 다른 글
| 기계학습, 파이프라인 저장과 streamlit 입력폼 생성 (0) | 2026.01.23 |
|---|---|
| 시각화 - 각 그래프의 특성 (1) | 2026.01.22 |
| GroupBy 결합, apply/map 사용 (0) | 2026.01.20 |
| 결측, 중복 전처리: Pandas Cleaning 정제 (1) | 2026.01.19 |