📌 1. 01 | 데이터 분석가를 위한 Spark 소개 및 실무 가이드 (마크튜터님)[1]
🎯 핵심 주제: 데이터 분석가에게 Spark는 왜 필수이며, 실무에서 어떻게 활용되는가?
1) Spark가 필수인 이유
- 대부분의 기업 채용공고에서 Spark를 필수 역량으로 요구
- Spark를 쓸 줄 아는 분석가 = **배치 파이프라인(Batch Pipeline)**을 만들 수 있는 분석가
- 입사하면 Databricks 같은 Spark 기반 플랫폼에서 분석 (Colab/로컬 VSCode ❌)
- 💡 Pandas를 할 줄 알면 PySpark도 금방 적응 가능 (문법만 약간 다름)
2) 신입 분석가의 실제 업무
- 데일리 지표 산출 (DAU, 매출액 등), 대시보드 운영, OKR 달성도 추적
- 🚨 "임팩트 있는 인사이트 발굴"은 거의 불가능 → 규격화된 업무를 빠르고 안정적으로 수행하는 것이 핵심
- PO(프로덕트 오너)의 "손과 발, 눈과 귀" 역할
3) ETL/ELT 파이프라인
- ETL: Extract → Transform → Load (가공 후 적재)
- ELT: Extract → Load → Transform (적재 후 가공)
- 대기업은 역할 세분화 / 스타트업은 A to Z 전체 담당 가능성 ↑
4) Spark 아키텍처
- Driver(제출) → Master(실행계획) → Worker/Executor(실행)
5) Pandas vs Spark
- Pandas: 단일 머신, 메모리에 전체 로드 → 대용량 시 OutOfMemory
- Spark: 분산 처리(병렬), 대용량 처리 가능
- 🚨 Spark에서도 collect() 사용이나 데이터 스큐(Skew) 시 OOM 발생 가능
6) 실무 필수 주의사항
- 테이블 크기 파악 후 쿼리 수행, LIMIT 사용, 파티셔닝 구조 확인 필수
- 💡 날짜 파티션에서 하루~이틀치만 조회하여 구조 파악하는 습관!
7) 최종 프로젝트 가이드
- Kaggle CSV ❌ → API/크롤링 → 자동화 파이프라인 ⭕ 강력 추천
- 이상치·에러 처리 등 문제 해결 과정이 포트폴리오 핵심 차별점
- 자동화: Google Spreadsheet, Airflow, n8n 등 활용
8) AI 시대의 데이터 분석가
- 코딩 능력보다 "무엇을 분석할지" 기획하는 능력이 차별화 포인트
- **도메인 지식(Domain Knowledge)**이 점점 더 중요해질 것
📌 2. DX·AX 직무 소개 (무아튜터님)[2]
🎯 핵심 주제: DX(디지털 전환)와 AX(AI 전환)의 개념, 그리고 데이터 분석가의 역할 변화
1) DX vs AX 개념
- DX = 아날로그 업무를 디지털로 바꾸는 것 (종이결재→전자결재, 엑셀→ERP)
- AX = AI가 스스로 판단하고 실행하게 만드는 것 (DX 위에 AI를 내재화)
- DX 분석가: **"무엇이 일어났는가?"**를 데이터로 설명하는 사람
- AX 분석가: **"무엇이 일어날 것인가? 어떻게 대응해야 하는가?"**를 AI와 함께 예측·설계하는 사람
2) 왜 지금 AX가 중요한가
- AI 통합 조직이 아직 1% 미만 → 99%의 조직이 AX를 해야 함
- 2026년 정부 AI 예산 약 9.9조 원 (전년 대비 약 3배)
- 기업이 원하는 AI 인재 1순위 = '데이터 수집·전처리 가능 인재'(31.6%)
3) 한국 정부 AX 사례
- 그린북 AI 자동 작성 (기획재정부), AI 홍수 예보 시스템 (환경부)
- 소상공인 빅데이터 플랫폼 (중소벤처기업부), 국민신문고 민원 AI 분석 등
4) AX 시대 포트폴리오 전략
- ❌ "뭘 만들었다" → ⭕ **"만든 결과 뭐가 얼마나 좋아졌다"**를 수치로 증명
- 좋은 포트폴리오 구조: 데이터 분석 → 인사이트 도출 → AI 자동화 구조 → 비즈니스 효과 수치화
5) 취업 준비 핵심 역량 순위
- SQL → 2. Python → 3. 통계 → 4. 시각화 → 5. 머신러닝 → 6. 생성형 AI
- 💡 기술보다 더 중요한 것: 전환 성과를 수치로 말하는 능력, 문서화·보고 역량, 프로세스 구조화 능력
6) 비전공자의 이점
- AX/DX 직무에서는 도메인 전문성이 핵심 → 코딩으로 대체 불가
- AI 도구(Claude Code, Codex 등)가 코딩 격차를 빠르게 줄이는 중
- **"코드를 짤 수 있는가"보다 "무엇을 만들어야 하는지 판단할 수 있는가"**가 더 중요한 시대
'[데이터분석] 부트캠프 TIL' 카테고리의 다른 글
| 20260409 TIL (0) | 2026.04.09 |
|---|---|
| 20260408 TIL (0) | 2026.04.08 |
| 20260406 TIL (1) | 2026.04.06 |
| 20260403 TIL (0) | 2026.04.03 |
| 20260402 TIL (0) | 2026.04.02 |