data science 44

Sales data 분석

URL Sales data 로딩Data Processing1. missing data 찾기2. missing data를 로우(axis=0) 단위로 자체(inplace=True)에서 삭제하고 확인하기3.  불순 데이터(엉터리 데이터 = 같은 형타입이 아닌) 삭제4. 중복된 data 보기Feature Engineering1. 주문당 구매액( Total  ) 생성2. Order Date 를 월일시로 분리3. Purchse Address 를 주소, 시, 주, 우편번호로 분리4. State 와 ZIP 으로 재 분리5. 불필요한 칼럼들 삭제6. Order Date 순으로 정렬Sales 분석1. 매출액이 가장 큰 달은?2. 각 달의 요일별 주문수는?3. 시간대별 주문수는?4. 가장 많이 팔린 제품은?5. 각 도시별 ..

data science/pandas 2025.03.12

복수의 DataFrame들을 수직방향으로 통합하기

population_dict = { 'California': 39538223,                               'Texas': 29145505,                                'Florida': 21538187,                                'New York': 20201249,                                'Pennsylvania': 13002700 }population1 = pd.Series(population_dict)population_list = [39538223, 29145505, 21538187, 20201249, 13002700]population2 = pd.Series( population..

data science/pandas 2025.03.12

두개의 Series를 하나의 DataFrame으로 통합

1. Population Series population_dict = { 'California': 39538223,                                'Texas': 29145505,                                 'Florida': 21538187,                                 'New York': 20201249,                                 'Pennsylvania': 13002700 } population = pd.Series(population_dict)  혹은 데이터값이 리스트로 있을 경우population_list = [39538223, 29145505, 21538187, 20201249..

data science/pandas 2025.03.12

Naïve Bayes (나이브 배이스) Classifier - ROC curve

ROC ( Receiver Operating Characteristic) AUC( Area Under the Curve) score 는 binary classifiers의 퍼포먼스 측정에 유명한 메트릭스이다. 평가를 위해선 ROC curve의 밑쪽 면적을 측정하면 다양한 결정 쓰레시홀드에서의 classifier의 평가를 보여준다. ROC curve는 Y축엔 True Positive rate(TPR=Recall), X축엔 False Positive rate(FPR) 를 플롯- TPR : 스팸메일에 대해 스팸이라 판단하는 비율- FPR : 정상메일에 대해 스팸이라 판단하는 비율 binary classifier는 0.5 를 기준으로 판단을 한다. 만약 이 기준(결정 쓰레시홀드)을 임으로 0.1, 0.3, 0...

Naïve Bayes (나이브 배이스) Classifier - 실전 2

import numpy as npimport pandas as pddata_path = 'https://github.com/vandit15/Movielens-Data/blob/master/ml-1m/ratings.dat?raw=true'df = pd.read_csv(data_path, header=None, sep='::', engine='python')df.columns = ['user_id', 'movie_id', 'rating', 'timestamp'] n_users = df['user_id'].nunique()n_movies = df['movie_id'].nunique()def load_user_rating_data(df, n_users, n_movies):    data = np.zeros([n..

if elif 쓰지 않기

종래 방법권고 방법food_item = input("Enter Food Item Name: ")def getPrice(food_item):      if food_item == "Burger":         return 100      elif food_item == "Pizza":         return 200       elif food_item == "Juice":         return 50       elif food_item == "Apple":         return 150print(getPrice(food_item))food_item = input("Enter Food Item Name: ")food_items = { "Burger":100 "Pizza":200 "Juice":..

data science/python 2025.03.04

Dijkstra Algorithm가 구현된 osmnx 라이브러리를 이용한 경로 검색

앞선 칼럼에서 경로 검색에 쓰이는 Dijkstra Algorithm 을 Python 으로 구현해 보았다.. Dijkstra Algorithm (Google map 에서도 사용하는 경로 찾기)Dijkstra Algorithm은 지도에서 가장 빠른 패스를 찾아주는 것 처럼 네트워크에서 두 지점간 가장 짧은 루트를 찾는데 쓰이는 알고리즘이다. 아래와 같은 분야에서 응용될 수 있다.GPS navigation systems fieldercoder.tistory.com이번엔 OSMnx  라이브러리를 이용하여 직접 지도와 연결해서 경로 검색을 해 보도록 하자.참고로 OSMnx 는 OpenStreetMap (오픈소스 지도 데이터)로 부터 데이터를 다운로드 받아 실 세계의 도로망과 그 외의 지리공간형태를 모델화, 투영,..

data science/python 2025.02.22

Dijkstra Algorithm (Google map 에서도 사용하는 경로 찾기)

Dijkstra Algorithm은 지도에서 가장 빠른 패스를 찾아주는 것 처럼 네트워크에서 두 지점간 가장 짧은 루트를 찾는데 쓰이는 알고리즘이다. 아래와 같은 분야에서 응용될 수 있다.GPS navigation systems finding the fastest route (가장 빠른 루트를 찾는 GPS 네비게이션)Routing data packets in computer networks (컴퓨터 네트워크에 있어서 데이터 패킷의 라우팅)Delivery services optimizing routes for efficiency (배달 서비스의 효율적인 루트 최적화)Social networks (suggesting connections) (쇼셜네트워크에 있어서 커넥션 제안)Finance (finding o..

data science/python 2025.02.21

(colab) web scrapping

웹스크래핑이란 웹서버로 부터 html 전체를 가져와서 html 태그내에 있는 유용한 데이터를 추출하는 것이다. 최근 사이트들은 Scrapping 방지를 해 놔서 일반적인 python 의 requests.get(url) 로는 Timeout 에러가 발생한다. 하지만 웹 브라우저(Chrome, Firefox 등등)을 이용하면 제한은 없어지기 때문에 프로그램적으로 웹 브라우저를 통제하기 위해서 python에서 selenium 라이브러리를 통하여 작동할 OS에 설치되어 있는 브라우저에 맞는 Webdriver를 이용한다.  프로그램이 동작할 OS에서의 설정은 까다로운 편이지만, Google Colab 에서는 아래와 같이 간단하게 설정하면 된다.!pip install google-colab-selenium impor..

data science/python 2025.02.16