[데이터분석] 부트캠프 TIL

20251219 TIL

myun0506 2025. 12. 19. 18:09

Today I Learn

: 아티클 스터디, SQL Join 심화 공부

 

- 아티클 1 : 데이터 분석이란 무엇일까? - 요즘 IT

https://yozm.wishket.com/magazine/detail/1567/

 

데이터를 단지 엑셀 파일이나 데이터베이스에 넣어둔 채 들여다보지 않고 분석하지 않는다면 별다른 가치를 얻을 수 없습니다. 데이터 분석가는 도구와 프로세스를 사용하여 데이터에서 의미를 도출하며 데이터의 수집, 수정, 조사, 분석, 인사이트 도출, 지식 내재화를 담당합니다.

정성데이터는 숫자가 아닌 데이터로, 사람들이 특정한 대상을 어떻게 느끼는지 알려줍니다. '무엇을', '왜', '어떻게', 와 같은 질문에 답하는 것이 목적이며, 서술형으로 기록되는 데이터입니다.

정량적데이터는 숫자로 표현되며 숫자의 크기에 관한 것으로, 수량과 평균 같은 수치를 포함합니다. '얼마나 많이', '얼마나 자주', '얼마나 오래'와 같은 질문에 답하는 것이 목적이며 통계 분석은 데이터의 기본 패턴과 추세를 파악하는 데 유용합니다.

데이터 분석의 핵심은 트렌드를 식별하고 예측하며, 수집 가능한 모든 데이터로부터 패턴과 상관관계를 파악하여 복잡한 문제에 대한 해결책을 찾는 것입니다.

 

- 데이터 분석이 중요한 이유

1) 데이터 분석을 통한 고객 타깃팅 개선

2) 데이터 분석은 성공과 성과를 측정

3) 데이터 분석은 문제 해결에 도움을 줌

 

- 데이터 분석 프로세스 개요

1) 답변이 필요한 질문 인식 및 식별: 명확한 목표 설정

  • 해결하려는 문제는 무엇인가요?
  • 데이터 분석의 목적은 무엇인가요?
  • 무엇을 달성하고 싶나요?
  • 분석을 통해 무엇을 얻고자 하나요?
  • 데이터 분석이 왜 필요한가요?
  • 어떤 종류의 데이터가 필요한가요?

2) 원시 데이터 수집

  • 거래 및 구매 내역 기록, 비즈니스 재무 또는 마케팅 부서에서 만든 자료 및 재무 수치 보고서
  • 회사에서 사용하는 CRM (고객 관계 관리 시스템)
  • 타사 서비스를 사용하여 회사의 데이터를 경쟁 업체와 비교하기
  • 데이터베이스 쿼리
  • 공개 데이터 세트를 웹 스크래핑을 통해 수집 (웹 스크래핑: 웹사이트에서 데이터와 콘텐츠를 추출하고 수집하는 행위)

3) 데이터 정제

  • 아웃라이어(비정상적으로 크거나 작은 값) 찾기
  • 오타 수정
  • 데이터 오류 제거
  • 중복 데이터 제거
  • 형식의 불일치 수정
  • 누락된 값을 확인하거나 잘못된 데이터 수정

4) 데이터 분석

  • 기술적 분석: 수집한 데이터를 요약하며 '무슨 일이 일어났지?'라는 질문에 답하는 것. 데이터의 핵심 포인트 살피고 이미 벌어진 일에 집중.
  • 진단적 분석: 수집된 데이터를 사용하여 당면한 문제의 원인을 이해하고 패턴 찾아내는 것. '왜 이런 일이 일어났지?'에 답하는 것.
  • 예측 분석: 미래 트렌드를 감지하고 예측하는 단계, 기업의 미래 성장에 중요한 인사이트를 줌. '앞으로 어떤 일이 벌어질까?'에 답하는 것.
  • 처방적 분석: 위 세 단계에서 얻은 모든 인사이트를 하나로 모아 앞으로 다가올 일에 대한 대비책을 세우고 실행 가능한 계획을 수립하는 단계. '무엇을 해야할까?'에 답하는 것

5) 결과 공유

  • 데이터를 취합하고 내러티브를 만들어 명확하고 직관적이며 간결하게 결과 제시

 

- 필요한 기술에 관한 수업

https://youtu.be/LwCRRUa8yTU?si=ojj3P0NyJxX7EXvz : 대학 수학의 무료 입문 과정 (7시간)

https://youtu.be/eI4an8aSsgw?si=L0w8LrTyIZZXcN6P : 대학 수학의 무료 입문 과정 - 미적분 (5시간)

https://www.youtube.com/watch?v=2SpuBqvNjHI : 프로그래머를 위한 수학 과정

https://youtu.be/xxpc-HPKN28?si=hSIWVJxPxgi9N93X : 대학 수준의 무료 통계 과정 (8시간)

https://youtu.be/_V8eKsto3Ug?si=cuw_sqGQP3mhAmKR : : R 프로그래밍 언어 익히기 무료 과정 (2시간)

https://youtu.be/TPMlZxRRaBQ?si=stShQh2KLt82c-wy : 타블로 단기 집중 과정 (30분)

https://youtu.be/Vl0H-qTclOg?si=PmumziU7oK8t7okT : 마이크로소프트 액셀 과정 (2시간30분)

 

 

- 아티클 2 :데이터 분석가는 어떤 일을 하나요? - 모두의 연구소 기술 블로그 코크리  

https://medium.com/modulabs/콘텐츠-크리에이터-소개-b2455d77c6d0

 

- 데이터 분석가가 갖추어야 하는 기본 역량

  • 도메인에 대한 이해
  • 문제 해결
    • 실제로 사용할 수 있는 데이터에 비해 회사에서 알고 싶어 하는 데이터가 다를 수 있음. 분석가는 그런 상황을 어떻게 해결할 수 있을지 창의력을 발휘해야함
    • ex) 회사 내부 BM(Business Model)별로 매출을 파악하고 싶음 → 실제 저장된 데이터로는 BM 구분이 되지 않음 → 가지고 있는 데이터로 구분할 수 있는 방법이 없을까 고민 or 개발 요청 → 기존의 데이터로 방법을 찾아서 분석 or 추가 개발 후 쌓인 데이터로 분석
  • 의사소통
    • 본인이 분석한 결과물을 보고받는 사람, 듣는 사람의 입장에서 이해하기 쉬운 용어를 사용하여 결과를 공유하고, 공유한 내용에 대한 질문에 답하거나 해결할 준비가 되어있어야 함. → 헷갈리는 용어 또는 요약 내용을 작게나마 하단에 기재하는 것이 좋음
    • ex) 이번 달 매출은 *YoY(전년 동기 대비 증감률)으로 보면 OO% 줄었지만, *YTD(연초 대비 증감률)로 보면 OO% 증가 →OO의 영향으로 추정ex) *A/B 테스트의 결과 A 안의 *CTR(클릭률)이 26%가량 높음
    • *YoY(Year on Year : 전년 동기 대비 증감률)
      예. 작년의 동일 기간(2020년 12월)과 올해의 동일 기간(2021년 12월)을 비교
      *YTD(Year To Date : 연초 대비 증감률)
      예.11월 기준, 올해 현재까지의 누적값(2021년 1월~11월)과 올해 현재와 같은 전년의 누적값(2020년 1월~11월) 비교
      *A/B 테스트 : 두 개의 변형 A와 B를 사용하는 종합 대조 실험
      *CTR(Click-Through Rate : 클릭률 = 클릭 수/노출 수, 광고가 클릭된 횟수를 광고가 게재된 횟수로 나눈 값)
  • 의미 있는 결론 도출
    • 목표설정은 매우 중요하며 데이터 내에 숨어있는 더 큰 메시지를 가리키는 작은 단서를 알아차릴 수 있어야 함. → 지표(Metric)를 쪼개서 보는 것이 중요함
    • Output Metric은 최종 Goal이라고 할 수 있고, 다수의 Input Metric을 투입해서 나올 수 있는 결과라고 볼 수 있음

 

- 아티클 3 : 데이터 리터러시를 올리는 방법 - 요즘 IT 

https://yozm.wishket.com/magazine/detail/1632/

 

데이터 리터러시(Data Literacy)를 올리는 방법 | 요즘IT

화해팀은 일찍이 데이터의 중요성을 강조해왔는데요. 조직 전반적으로 데이터 활용력을 높이고, 데이터 의사결정 문화를 활성화하기 위해 많은 시도를 해왔습니다. 데이터를 거의 실시간에 가

yozm.wishket.com

 

- 데이터 분석가의 역할 (화해팀 분석가 JD)

  • 제품/비즈니스 성장을 위한 지표 설계 및 대시보드 개발
  • 제품/비즈니스 문제 해결을 위한 실험 설계
  • 핵심 지표 모니터링 및 지표 변동의 root cause 분석
  • 데이터 분석 결과를 바탕으로 실질적인 액션 아이템 제안
  • 데이터 기반사고와 실험 활성화를 위한 전사적인 코칭 및 컨설팅 역할 수행

 

- 아티클 4 : 그 데이터는 잘못 해석되었습니다 - 요즘 IT

https://yozm.wishket.com/magazine/detail/1816/

 

그 데이터는 잘못 해석되었습니다 | 요즘IT

무엇이든 데이터가 있으면 쉽게 결정을 내릴 수 있을 것 같습니다. 하지만 현업에서는 데이터가 있어도 결정을 내리기 어려운 상황들이 있습니다. 특히 데이터를 통한 의사결정을 내릴 때, 가장

yozm.wishket.com

 

- 데이터를 잘못 해석하는 상황별 유형

  • 생존자 편향의 오류
    • 이탈 고객 중 서비스를 장기간 이용한 고객의 비율로 지표설정하고 이 지표가 상승했다면 최근 고객들의 불만도가 높아졌다고 해석할 수 있음 but, 반대로 이 지표가 상승할 때 서비스가 올바른 방향으로 성장한다고 해석할 수도 있음
    • 전체 이용자를 기준으로 한 것이 아닌 이탈자를 대상으로 했기 때문에, 잘못된 지표 설정과 잘못된 해석 발생
    • 이탈한 유저 대신 전체 활성화된 유저를 기준으로 해석하면 올바른 지표에 따른 해석이 가능해짐
  • 심슨의 역설
    출처: https://yozm.wishket.com/magazine/detail/1816/

출처: https://yozm.wishket.com/magazine/detail/1816/

  • 전체 지표와 그룹을 나눈 지표의 방향성이 다르게 나타나는 상황을 심슨의 역설이라고 함
  • 전체 집단의 지표 뿐만 아니라, 집단을 나누어 지표를 확인하는 과정 필요
  • 사용자를 나눌 수 있는 기준은 다양하기 때문에, 지나치게 작게 나누는 것은 복잡도를 높여 해석하기 어려워짐. 특성이 다를 수 있다고 생각하는 성별, 연령대, 기기 타입, 신규/기존 여부 등의 기준들을 미리 정하여, 그 기준으로 지표를 살펴보는 것이 중요

3) 상관관계를 통한 성급한 일반화

  • 상관성은 있으나 인과성이 없는 경우는 제3의 공통 원인이 존재할 가능성이 높음
    https://yozm.wishket.com/media/news/1816/image009.png
  • 사용자의 행동과 심리를 인지적으로 구조화하고 두 지표에 동시에 영향을 줄 공통 원인이 있는지 살펴봐야 함. 
  • 새로운 구조로 지표 간의 관계를 파악하는 과정 필요함

 

- What to Learn Tomorrow

: 아티클 스터디 나머지, SQL Join과 Limit 쿼리 공부 until 본캠프 시작

'[데이터분석] 부트캠프 TIL' 카테고리의 다른 글

20251222 TIL  (0) 2025.12.22
20251221 TIL  (0) 2025.12.22
20251218 TIL  (0) 2025.12.18
20251217 TIL  (0) 2025.12.17
20251216 TIL  (0) 2025.12.16