1. 데이터 수집
web scrapping ( https://eldercoder.tistory.com/194 )를 이용하여 일본 부동산 정보 사이트 suumo 로 부터 도쿄 3개 지역( 시부야 / 메구로 / 하치오우지 시 ) 월세 정보를 추출하여 각각 suumo_shibuya.csv / suumo_meguro.csv / suumo_hachiouji.csv 화일로 추출하였다.
이들을 합친 결과를 pandas DataFrame 에 저장하였다.
import pandas as pd df_1 = pd.read_csv('/content/drive/MyDrive/suumo_hachiouji.csv', sep=',', index_col=0) df_2 = pd.read_csv('/content/drive/MyDrive/suumo_shibuya.csv', sep=',', index_col=0) df_3 = pd.read_csv('/content/drive/MyDrive/suumo_meguro.csv', sep=',', index_col=0) df = pd.concat([df_1, df_2, df_3], axis=0, ignore_index=True) |
각각 불러들일때 index_col = 0 는 자동적을 붙는 일련번호를 index로 사용하고자 함이고
concat 으로 합칠 시에는 리스트 [ ] 안에 각각의 DataFrame 을 나열해 주면 된다.
이때 axis = 0 는 합칠 방향이 수직이고 ignore_index 는 True 든 False 든 변하지 않았다.
2. 데이터 정보
df.info() <class 'pandas.core.frame.DataFrame'> Index: 19146 entries, 0 to 3300 Data columns (total 13 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 マンション名 19146 non-null object 1 住所 19146 non-null object 2 立地1 19146 non-null object 3 立地2 18089 non-null object 4 立地3 16264 non-null object 5 築年数 19146 non-null object 6 建物高さ 19146 non-null object 7 階 19146 non-null object 8 賃料 19146 non-null object 9 管理費 19146 non-null object 10 敷/礼/保証/敷引,償却 19146 non-null object 11 間取り 19146 non-null object 12 専有面積 19146 non-null object dtypes: object(13) df.head(3) ![]() |
'data science > pandas' 카테고리의 다른 글
(pandas) basic (0) | 2024.10.23 |
---|---|
(pandas) Youtube 노빠꾸탁재훈 채널 분석 (0) | 2023.11.18 |
(pandas) 분석용 youtube 채널 데이터(DataFrame) 만들기 (1) | 2023.11.18 |