본문 바로가기
data science/pandas

pandas 를 이용한 일본 월세 부동산 정보 분석 - 1

by 꼰대코더 2025. 2. 18.

1. 데이터 수집

 web scrapping ( https://eldercoder.tistory.com/194 )를 이용하여 일본 부동산 정보 사이트 suumo 로 부터 도쿄 3개 지역(  시부야 / 메구로 / 하치오우지 시 ) 월세 정보를 추출하여 각각 suumo_shibuya.csv / suumo_meguro.csv / suumo_hachiouji.csv 화일로 추출하였다.

 

이들을 합친 결과를  pandas DataFrame 에 저장하였다.

import pandas as pd

df_1 = pd.read_csv('/content/drive/MyDrive/suumo_hachiouji.csv', sep=',', index_col=0)
df_2 = pd.read_csv('/content/drive/MyDrive/suumo_shibuya.csv', sep=',', index_col=0)
df_3 = pd.read_csv('/content/drive/MyDrive/suumo_meguro.csv', sep=',', index_col=0)

df = pd.concat([df_1, df_2, df_3], axis=0, ignore_index=True)

각각 불러들일때 index_col = 0 는 자동적을 붙는 일련번호를 index로 사용하고자 함이고
concat 으로 합칠 시에는 리스트 [ ] 안에 각각의 DataFrame 을 나열해 주면 된다.
이때 axis = 0 는 합칠 방향이 수직이고 ignore_index 는 True 든 False 든 변하지 않았다.

 

2. 데이터 정보

df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 19146 entries, 0 to 3300
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   マンション名        19146 non-null  object
 1   住所            19146 non-null  object
 2   立地1           19146 non-null  object
 3   立地2           18089 non-null  object
 4   立地3           16264 non-null  object
 5   築年数           19146 non-null  object
 6   建物高さ          19146 non-null  object
 7   階             19146 non-null  object
 8   賃料            19146 non-null  object
 9   管理費           19146 non-null  object
 10  敷/礼/保証/敷引,償却  19146 non-null  object
 11  間取り           19146 non-null  object
 12  専有面積          19146 non-null  object
dtypes: object(13)

df.head(3)