[데이터분석] 부트캠프 TIL

20260212 TIL

myun0506 2026. 2. 12. 21:02

[Today I Learn]

- SQL codekata

- Python codekata

- 아티클스터디


[SQL codekata]

- 문제 1.

1. 문제 링크: https://www.hackerrank.com/challenges/weather-observation-station-12/problem

2. 정답 코드

select distinct city 
from station 
where city not regexp '^a|^e|^i|^o|^u'
and city not regexp 'a$|e$|i$|o$|u$'

 


[Python codekata] 

- 문제 1.

1. 문제 링크: https://school.programmers.co.kr/learn/courses/30/lessons/120909?language=python3

2. 정답 코드

def solution(n):
    r = int(n**(0.5))
    return 1 if r ** 2 == n else 2
def solution(n):
    r = n**(0.5)
    return 1 if r % 1 == 0 else 2
def solution(n):
    r = n**(0.5)
    return 1 if r.is_integer() else 2

 

- 문제 2.

1. 문제 링크: https://school.programmers.co.kr/learn/courses/30/lessons/120826?language=python3

2. 정답 코드

def solution(my_string, letter):
    return my_string.replace(letter,'')
def solution(my_string, letter):
    answer = ''
    for l in my_string:
        if l != letter:
            answer += l
    return answer
def solution(my_string, letter):
    return ''.join([l for l in my_string if l != letter])

[아티클스터디]

 

  • 주요 포인트:
    • 모집단 전체를 대상으로 실험하는 것이 불가능하니 일부로 표본을 뽑아 이를 대상으로 실험을 하고 모집단의 모수를 추정한다.
    • 아무일도 일어나지 않는다는 것이 ‘귀무가설’
    • 평소와 다른, 반대되는 상황이 발생하여 결과에 차이가 생길 것이라는 것이 ‘대립가설’
      • 양측검정 (일단 차이는 있을 것)
      • 단측검정 (높을 것 or 낮을 것)
    • 신뢰수준이 95%라는 것은 100번중 95번은 내가 생각하는 결과가 나오겠지만, 나머지 5번은 아닐 수도 있다. 즉, 100번 중 5번은 이 결과가 우리의 실험에서 설계한 장치와 별개로 순전히 우연에 의해 일어난 걸 수도 있다!
    • p-value가 유의수준 미만이면 A와 B는 정말로 차이가 있는게 맞다라고 판단
      • 가정: "A와 B는 아무런 차이가 없다(귀무가설)"라고 가정하자.
      • 관측: 그런데 실제 데이터를 보니 차이가 좀 있네?
      • 확률 계산: 만약 가정이 맞다면, 이런 차이가 나올 확률은 고작 4%밖에 안 돼.
      • 결론: 4%는 우리가 정한 기준(5%)보다 너무 희귀한 일이야. 따라서 "차이가 없다"는 가정이 틀렸다고 보고 이를 **기각(Reject)**하겠어.
    • p-value가 유의수준 이상이라면 A와 B는 차이는 단순한 우연일수도 있다고 판단
      • 가정: "A와 B는 아무런 차이가 없다(귀무가설)"라고 가정하자.
      • 관측: 실제 데이터를 보니 수치상으로는 약간의 차이가 보이긴 하네?
      • 확률 계산: 만약 가정이 맞다면, 이런 차이가 (혹은 이보다 더 큰 차이가) 나타날 확률은 약 6%야.
      • 결론: 6%라는 확률은 우리가 사전에 정한 '희귀한 사건'의 기준인 5%보다 커. 즉, **"이 정도 차이는 단순히 우연(Sampling Error)에 의해서도 충분히 발생할 수 있는 수준"**이라는 뜻이지. 따라서 "차이가 없다"는 가정이 틀렸다고 확신할 근거가 부족하므로, 귀무가설을 기각하지 못한다(Fail to Reject).
    • 매번 결과가 다르다면 확실하게 말하기 어려움 → 실험에 의한 결과인지 우연인건지 등을 P-value와 유의수준을 통해 비교 및 확인하는 것이 매우 중요함
  • 핵심 개념:
    • 점 추정과 구간 추정
      • 한 점을 콕 짚어 추측하는 것 (점추정)
      • 특정 범위/구간을 기준으로 추측하는 것 (구간추정)
    • 표준 오차
      • 동일하게 설계한 실험, 동일한 기준으로 선발한 서로 다른 표본 집단을 대상으로 실행했을 때 매번 발생하는 결괏값의 차이
    • 신뢰구간
      • 실험결과가 실제로 포함될 것으로 예측하는 범위
AB테스트는 단순히 더 좋은 결과를 위한 실험이라기 보다 확실한 검증 과정을 거친 논리적이고 학문적인 실험이고 단순한 마케팅 기법이 아닌 데이터에 기반한 의사결정 기법이라 생각한다.

'[데이터분석] 부트캠프 TIL' 카테고리의 다른 글

20260214 TIL  (0) 2026.02.15
20260213 TIL  (0) 2026.02.13
20260211 TIL  (0) 2026.02.11
20260210 TIL  (0) 2026.02.10
20260209 TIL  (0) 2026.02.09