데이터 전처리 및 시각화

dtype, 결측치, CSV/Excel/JSON 다루기

myun0506 2026. 1. 19. 14:35

[데이터 전처리 / 시각화 1-1]

- Series와 DataFrame 기본 구조 + dtype 이해

  • Series 객체 (단일 열 느낌)
    • 1차원 (한 줄/한 열 느낌)
    • index가 자동으로 붙음
  • DataFrame 객체 (표)
    • 2차원 (행/열)
    • 컬럼 이름이 피처 (Feature)

  • 데이터 타입(dtype) 5종 맛보기
    • 수치형 (Numeric Types): int, float
    • 문자/범주형 (Text / Categorical Types): object/string/category
    • 불리언 (Boolean Type): bool
    • 날짜/시간 (Datetime Types): datetime64
    • 결측치/널 값: NaN, None
  • dtype 확인: df.dtypes
  • 결측치 확인: df.isna().sum()

- 문제 있는 데이터를 분석 가능하게 고치기 (전처리 핵심)

  • 날짜(date) 통일 -> datetime으로 변환
    • errors="coerce": 변환 안되면 NaT(결측)로 처리
    • format="mixed": 여러가지 날짜 포맷이 섞여있을 때 다른 포맷도 날짜형으로 처리

  • price 정리: "원","," 제거 후 숫자로 변환

  • qty 정리: 숫자로 변환

  • paid 정리: TRUE/FALSE/True 혼합 -> bool로 통일

  • 결측치 처리 (price나 qty가 없으면 매출 계산이 안되니 0으로 채운다)

  • 파생 피처 만들기: sales(매출) = price*qty

 

- 데이터 불러오기 및 저장 (CSV, Excel, JSON)

  • CSV 파일 저장하기 : df.to_csv (df.to_excel, df.to_json)
  • CSV 파일 읽기 : pd.read_csv (pd.read_excel, pd.read_json)