[데이터분석] 부트캠프 TIL

20260128 TIL

myun0506 2026. 1. 28. 21:11

[Today I Learn]

- 기초 프로젝트 데이터 분석


[ 기초 프로젝트 데이터 분석 ]

- 아파트 건물금액 이상치 처리

  • 건물 면적은 그렇게 크지 않은데 물건 가격이 엄청 높은 매물
plt.figure(figsize=(10,6))
sns.scatterplot(data=apt, x='ARCH_AREA', y='THING_AMT', alpha=0.8) # alpha로 겹친 점 확인

# y축: 금액 100억(1,000,000만원) 이상
# plt.xlim(area_q3,400)
plt.ylim(1.0e+06,)

plt.title('아파트 면적 대비 금액 (주요 구간 확대)')
plt.show()

# 가격이 높게 형성된 매물 확인
apt[apt['THING_AMT']>=1.0e+06]

- 청담동 PH129 100평 100억 이상대(2021년부터) + 직거래의 경우 100억 이하로도 거래내역 확인 가능
- 성수동1가 갤러리아포레 99평 2023년부터 100억 이상 확인
- 한남동 나인원한남 89평 2024년부터 100억이상 확인
- 반포동 아크로리버파크 71평 2025년 기준 95억 -> 95평의 경우 2023-2024년 기준 100억 이상 가능
- 성수동1가 아크로서울포레스트 75평 2024년부터 100억이상 확인
- 한남동 파르크한남 96평 기준 2021년부터 100억 이상 확인
  • 건물면적 자체는 100평 이하지만 가격대는 100억 이상인 실제 매물 확인하여 이상치가 발견되지 않음

 

- 연립다세대 건물금액 이상치 처리 --> 층 오류 확인

# 연립다세대 데이터만 추출
yeon = df.loc[df['BLDG_USG']=='연립다세대'].copy()

# 7층 연립다세대 데이터 추출
seven_yeon = yeon[yeon['FLR']==7]

# 8층 연립다세대 데이터 추출
eight_yeon = yeon[yeon['FLR']==8]

  • 7층 8층의 경우 다세대주택과 오피스텔의 경계지점일 것으로 유추되어 집중조사해봄
  • 그 결과, 건물용도의 경우 사용 비율에 따라 구분하고, 비율이 높은 용도를 표기한 것으로 유추됨.
  • 보통 7층까지는 다세대주택 용도로 사용되는 것이 대부분이고,
  • 8층부터는 오피스텔과 다세대주택이 둘다 나타날 수 있는 경계선이라고 보임

 

 

- 오피스텔 건물금액 이상치 처리

  • 오피스텔 면적당 가격 추이
# 오피스텔
office = df[df['BLDG_USG']=='오피스텔']
office.info()

plt.figure(figsize=(10,6))
sns.scatterplot(data=office, x='ARCH_AREA', y='THING_AMT')
plt.tight_layout() 
plt.show()

  • 면적이 300 이상인 매물 확인 (이상치 고려)
weird_office = office.loc[office['ARCH_AREA']>300,['STDG_NM','BLDG_NM','CTRT_DAY','THING_AMT','ARCH_AREA','FLR']]
weird_office

 

  • 이상치로 추정되는 매물 그래프에서 확인
plt.figure(figsize=(10,6))
sns.scatterplot(data=office, x='ARCH_AREA', y='THING_AMT')
plt.tight_layout() 
plt.xlim(300,)
plt.show()

# 청담동 피엔폴루스 2019년 316제곱미터 65억 거래 확인
(https://hogangnono.com/apt/bg93c/0/7)
# 동자동 트윈시티 남산 2020년 488제곱미터 확인되지 않음. 실제 매물의 경우 2층 25.37제곱미터로 확인
--> 이상치
# 한강로2가 용산 토투벨리 2022년 341평 78억 실제 거래 데이터 확인
(https://hogangnono.com/apt/b8N50/0/14)
# 신천동 롯데월드타워앤드롯데월드몰 2023년 371평 240억 실제 거래 데이터 확인(https://hogangnono.com/apt/dGZ68/0/148)

 

  • 따라서 동자동 트윈시티남산은 해당 매물이 발견되지 않으므로 (같은 이름의 매물은 면적과 가격이 훨씬 작음) 이상치로 판단하고 제거하는 것이 옳다고 판단함
# 동자동 트윈시티 남산 매물을 이상치로 판단하고 제거
target = df[(df['BLDG_NM']=='트윈시티 남산') & (df['ARCH_AREA']==488.54)]
df = df.drop(target.index)

 

 

 

 

 

'[데이터분석] 부트캠프 TIL' 카테고리의 다른 글

20260202 TIL  (0) 2026.02.02
20260129 TIL  (0) 2026.01.29
20260127 TIL  (1) 2026.01.27
20260126 TIL  (0) 2026.01.26
20260122 TIL  (0) 2026.01.22