[데이터분석] 부트캠프 TIL

20260407 TIL

myun0506 2026. 4. 7. 20:52

📌 1. 01 | 데이터 분석가를 위한 Spark 소개 및 실무 가이드 (마크튜터님)[1]

🎯 핵심 주제: 데이터 분석가에게 Spark는 왜 필수이며, 실무에서 어떻게 활용되는가?

1) Spark가 필수인 이유

  • 대부분의 기업 채용공고에서 Spark를 필수 역량으로 요구
  • Spark를 쓸 줄 아는 분석가 = **배치 파이프라인(Batch Pipeline)**을 만들 수 있는 분석가
  • 입사하면 Databricks 같은 Spark 기반 플랫폼에서 분석 (Colab/로컬 VSCode ❌)
  • 💡 Pandas를 할 줄 알면 PySpark도 금방 적응 가능 (문법만 약간 다름)

2) 신입 분석가의 실제 업무

  • 데일리 지표 산출 (DAU, 매출액 등), 대시보드 운영, OKR 달성도 추적
  • 🚨 "임팩트 있는 인사이트 발굴"은 거의 불가능 → 규격화된 업무를 빠르고 안정적으로 수행하는 것이 핵심
  • PO(프로덕트 오너)의 "손과 발, 눈과 귀" 역할

3) ETL/ELT 파이프라인

  • ETL: Extract → Transform → Load (가공 후 적재)
  • ELT: Extract → Load → Transform (적재 후 가공)
  • 대기업은 역할 세분화 / 스타트업은 A to Z 전체 담당 가능성 ↑

4) Spark 아키텍처

  • Driver(제출) → Master(실행계획) → Worker/Executor(실행)

5) Pandas vs Spark

  • Pandas: 단일 머신, 메모리에 전체 로드 → 대용량 시 OutOfMemory
  • Spark: 분산 처리(병렬), 대용량 처리 가능
  • 🚨 Spark에서도 collect() 사용이나 데이터 스큐(Skew) 시 OOM 발생 가능

6) 실무 필수 주의사항

  • 테이블 크기 파악 후 쿼리 수행, LIMIT 사용, 파티셔닝 구조 확인 필수
  • 💡 날짜 파티션에서 하루~이틀치만 조회하여 구조 파악하는 습관!

7) 최종 프로젝트 가이드

  • Kaggle CSV ❌ → API/크롤링 → 자동화 파이프라인 ⭕ 강력 추천
  • 이상치·에러 처리 등 문제 해결 과정이 포트폴리오 핵심 차별점
  • 자동화: Google Spreadsheet, Airflow, n8n 등 활용

8) AI 시대의 데이터 분석가

  • 코딩 능력보다 "무엇을 분석할지" 기획하는 능력이 차별화 포인트
  • **도메인 지식(Domain Knowledge)**이 점점 더 중요해질 것

📌 2. DX·AX 직무 소개 (무아튜터님)[2]

🎯 핵심 주제: DX(디지털 전환)와 AX(AI 전환)의 개념, 그리고 데이터 분석가의 역할 변화

1) DX vs AX 개념

  • DX = 아날로그 업무를 디지털로 바꾸는 것 (종이결재→전자결재, 엑셀→ERP)
  • AX = AI가 스스로 판단하고 실행하게 만드는 것 (DX 위에 AI를 내재화)
  • DX 분석가: **"무엇이 일어났는가?"**를 데이터로 설명하는 사람
  • AX 분석가: **"무엇이 일어날 것인가? 어떻게 대응해야 하는가?"**를 AI와 함께 예측·설계하는 사람

2) 왜 지금 AX가 중요한가

  • AI 통합 조직이 아직 1% 미만 → 99%의 조직이 AX를 해야 함
  • 2026년 정부 AI 예산 약 9.9조 원 (전년 대비 약 3배)
  • 기업이 원하는 AI 인재 1순위 = '데이터 수집·전처리 가능 인재'(31.6%)

3) 한국 정부 AX 사례

  • 그린북 AI 자동 작성 (기획재정부), AI 홍수 예보 시스템 (환경부)
  • 소상공인 빅데이터 플랫폼 (중소벤처기업부), 국민신문고 민원 AI 분석 등

4) AX 시대 포트폴리오 전략

  • ❌ "뭘 만들었다" → ⭕ **"만든 결과 뭐가 얼마나 좋아졌다"**를 수치로 증명
  • 좋은 포트폴리오 구조: 데이터 분석 → 인사이트 도출 → AI 자동화 구조 → 비즈니스 효과 수치화

5) 취업 준비 핵심 역량 순위

  1. SQL → 2. Python → 3. 통계 → 4. 시각화 → 5. 머신러닝 → 6. 생성형 AI
  • 💡 기술보다 더 중요한 것: 전환 성과를 수치로 말하는 능력, 문서화·보고 역량, 프로세스 구조화 능력

6) 비전공자의 이점

  • AX/DX 직무에서는 도메인 전문성이 핵심 → 코딩으로 대체 불가
  • AI 도구(Claude Code, Codex 등)가 코딩 격차를 빠르게 줄이는 중
  • **"코드를 짤 수 있는가"보다 "무엇을 만들어야 하는지 판단할 수 있는가"**가 더 중요한 시대

'[데이터분석] 부트캠프 TIL' 카테고리의 다른 글

20260409 TIL  (0) 2026.04.09
20260408 TIL  (0) 2026.04.08
20260406 TIL  (1) 2026.04.06
20260403 TIL  (0) 2026.04.03
20260402 TIL  (0) 2026.04.02