[데이터분석] 부트캠프 TIL

20251223 TIL

myun0506 2025. 12. 23. 20:55

Today I Learn

: 직무스터디, SQL세션, 직무세션, Python 퀘스트

 

- 직무스터디

  • 데이터 분석 프로젝트 사례
    1. 파이썬을 활용한 종합 금융 데이터 분석 프로젝트 (https://chn1000.tistory.com/55)
      • 사용된 도구 및 라이브러리
        • FinanceDataReader: 주식 데이터 가져오기
        • Pytrends: Google Trends 데이터 검색
        • TensorFlow / Keras: 주식 가격 예측 모델 구축
        • OpenDartReader: 공시 정보 조회
        • Matplotlib: 데이터 시각화 수행
        • Scikit-learn: 데이터 전처리와 모델링
      • 데이터 통합 및 분석 프로세스
        • 주식 데이터 로딩
        • Google Trends 데이터 분석 (시장의 관심도와 관련 있음)
        • 데이터 시각화
        • 주식 가격 예측 모델
        • 공시 정보 분석 (투자 결정에 중요한 정보 제공)
      • 프로젝트의 중요성 및 잠재적 활용
        • 데이터 주도적 접근 방식을 통해 금융 시장의 복잡한 동향을 이해하고 예측하는데 중요
        • 분석 결과는 개인 투자자가 보다 정보에 기반한 투자 결정을 내리는데 도움을 줌
        • 기업의 재무 분석가나 데이터 과학자에게도 유용한 리소스가 되어줌
    2. FDA_project (https://github.com/Shinsieon/FDA_project)
      • 문제 정의
        • 실물경제 데이터인 GDP(Gross Domestic Product)와 채권 Yield Spread(U.S. 10Year Treasury-Federal Funds Rate)를 통하여 미래 경제를 예측한 후 주식가겨을 예측하여 개인의 투자 성향에 따른 맞춤형 포트폴리오 제안을 목적으로 함
        • 포트폴리오 최적화 시 개인 투자자의 투자 성향 뿐만 아니라 과거의 경제상황의 산업군 별 수익률 순위와 거래 비용을 최소화하기 위한 Turn Over 제약을 추가하여 개인 투자자의 보다 효과적인 재무 설계와 위험관리를 함
      • 방법론
        • 1960년부터 1999년까지의 실물경제 데이터와 금융데이터를 기계학습을 이용하여 훈련시키고, 이후 2000년부터 2020년 10월까지를 Test 기간으로 설정함
      • 분석
        • 각 모델별로 Cross Validation을 통해 우수한 성능을 보여준 Decision Tree Regression 기법을 사용하여 모델링 진행함
        • 각 변수의 중요도(Feature importance)를 확인하였고 이때 가장 중요한 변수는 yield spread임을 알 수 있었음
      • 결과
        • 결과나 인사이트에 대한 정보는 부족함.......
  • 5단계로 나눠서, 각 단계에 어떤 일을 하는지 정리
    • 문제 정의
      • 프로젝트의 주요 목표를 명확히 설정
      • 예상되는 결과물과 도출하고자 하는 핵심 인사이트를 사전에 설정
      • 어떤 의사결정(마케팅, 상품, 운영)에 활용될 분석인지 명시
    • 데이터 수집
      • 필요한 데이터를 집중적으로 수집
      • 사용할 데이터의 출처와 필요한 데이터 유형 및 범위를 명시
      • 데이터 수집 시점/주기/누락 가능성 등 분석 결과에 영향을 줄 수 있는 제약 사항 명시
    • 전처리
      • 데이터의 결측치나 이상치를 처리
      • 전처리 방법과 선택 이유를 명확히 기술
    • 분석
      • 사용할 데이터 분석 기법과 모델 선정
      • 사용할 데이터 지표 명확히 정의
    • 시각화 및 커뮤니케이션
      • 보고서에 사용할 시각화 도구 및 방법 결정하고 강조할 요소 구체화
      • 시각화 도구를 사용하여 필요한 시각화 자료 생성
      • 의사결정자/실무자 등 대상에 따라 시각화 수준과 메시지 조정
      • 분석 결과를 해석하고 비즈니스에 어떻게 적용할 수 있는지 설명
      • 데이터에서 도출된 인사이트와 향후 전략 수립을 위한 제언을 제시
  • SQL이 직무에서 쓰이는 구체적인 사례
    • 대부분의 데이터는 SQL 방식의 관계형 DB에 저장되어 있음
    • SQL 문법에 맞게 컴퓨터에 명령을 내려서 필요한 데이터를 추출함
    • 문제 정의 후 필요한 지표를 정의한 후 SQL로 데이터를 추출하고 집계하여 이를 바탕으로 분석/해석/시각화 한 후 인사이트를 도출 하는 것이 데이터분석의 흐름....
    • 고객행동 
      • 고객행동 데이터 필터링 (분석 목적에 맞는 고객만 선별)
      • 핵심 지표(KPI)생성 (의미 있는 지표로 변환)
      • 고객/채널 단위로 데이터 집계 (비교 분석을 위한 구조화)

 

 

- 아티클 1 : 데이터 분석 포트폴리오에 프로젝트는 몇 개가 적당한가요?

https://datarian.io/blog/seminar-qna-data-analyst-requirements

 

데이터 분석 포트폴리오에 프로젝트는 몇 개가 적당한가요?

현업 데이터 분석가들의 답변을 확인해보세요

datarian.io

 

- SQL 코딩테스트 학습을 위해 추천하는 플랫폼

- 포트폴리오 주의사항

  • 코드 첨부하는건 괜찮음. 다만 코드가 포트폴리오에서 문제 해결과 논리 과정을 전개하는 것보다 중요하게 비중을 차지하는 않도록 주의. 또한 변수명이나 코드 컨벤션 등도 한번 더 확인 후 첨부하길 추천
  • 프로젝트별 요약과 프로젝트에서 한 역할, 성과를 정리하면 좋음. 면접관 입장에서 생각보다 면접 서류를 확인하는 시간적 여유가 없음. 프로젝트의 핵심적인 내용을 간략하게 정리하는걸 추천

 

- Python 퀘스트 (단어맞추기 게임)

i = 0
for a in letter:
      if a == alp:
        hint[i] = a

      i += 1

 

이렇게 작성했던 코드를 enumerate 함수를 이용해 간단히 수정함

for i, a in enumerate(letter):
      if a == alp:
        hint[i] = a

      i += 1

 

- for index, element in enumerate(iterable) 형태

- iterable: 하나씩 차례대로 꺼내서 반복(iteration) 할 수 있는 객체

  • my_list = [1, 2, 3]
  • my_tuple = (1, 2, 3)
  • my_string = "hello"
  • my_set = {1, 2, 3}
  • my_dict = {"a": 1, "b": 2}

 

- DBeaver 설치하기 (MySQL 연결)

https://myun0506.tistory.com/43

 

DBeaver 설치하기 (MySQL 연결)

- DBeaver 설치하기 (MySQL 연결)문제점원래 MySQL Workbench로 SQL 쿼리 작성했었는데 이번에 user.csv를 다운받아서 테이블을 import 하려고 하니까 한글 경로여서 그런건지 아무튼 계속 import가 되지 않았음

myun0506.tistory.com

 

 

- Microsoft 사용자 변경하기

https://myun0506.tistory.com/44

 

Microsoft 사용자 변경하기

- Microsoft 사용자 변경하기문제점매번 파일이나 개발도구(개발환경)을 설치할때 설치경로 안에 한글 사용자명이 포함되어 오류가 발생했음그래서 이름만 변경하려고 하니까 숙명 계정에 연결되

myun0506.tistory.com

 

 

 

 

'[데이터분석] 부트캠프 TIL' 카테고리의 다른 글

20251226 TIL  (1) 2025.12.26
20251224 TIL  (0) 2025.12.24
20251222 TIL  (0) 2025.12.22
20251221 TIL  (0) 2025.12.22
20251219 TIL  (1) 2025.12.19