전체 글 204

Sales data 분석

URL Sales data 로딩Data Processing1. missing data 찾기2. missing data를 로우(axis=0) 단위로 자체(inplace=True)에서 삭제하고 확인하기3.  불순 데이터(엉터리 데이터 = 같은 형타입이 아닌) 삭제4. 중복된 data 보기Feature Engineering1. 주문당 구매액( Total  ) 생성2. Order Date 를 월일시로 분리3. Purchse Address 를 주소, 시, 주, 우편번호로 분리4. State 와 ZIP 으로 재 분리5. 불필요한 칼럼들 삭제6. Order Date 순으로 정렬Sales 분석1. 매출액이 가장 큰 달은?2. 각 달의 요일별 주문수는?3. 시간대별 주문수는?4. 가장 많이 팔린 제품은?5. 각 도시별 ..

data science/pandas 2025.03.12

복수의 DataFrame들을 수직방향으로 통합하기

population_dict = { 'California': 39538223,                               'Texas': 29145505,                                'Florida': 21538187,                                'New York': 20201249,                                'Pennsylvania': 13002700 }population1 = pd.Series(population_dict)population_list = [39538223, 29145505, 21538187, 20201249, 13002700]population2 = pd.Series( population..

data science/pandas 2025.03.12

두개의 Series를 하나의 DataFrame으로 통합

1. Population Series population_dict = { 'California': 39538223,                                'Texas': 29145505,                                 'Florida': 21538187,                                 'New York': 20201249,                                 'Pennsylvania': 13002700 } population = pd.Series(population_dict)  혹은 데이터값이 리스트로 있을 경우population_list = [39538223, 29145505, 21538187, 20201249..

data science/pandas 2025.03.12

Naïve Bayes (나이브 배이스) Classifier - ROC curve

ROC ( Receiver Operating Characteristic) AUC( Area Under the Curve) score 는 binary classifiers의 퍼포먼스 측정에 유명한 메트릭스이다. 평가를 위해선 ROC curve의 밑쪽 면적을 측정하면 다양한 결정 쓰레시홀드에서의 classifier의 평가를 보여준다. ROC curve는 Y축엔 True Positive rate(TPR=Recall), X축엔 False Positive rate(FPR) 를 플롯- TPR : 스팸메일에 대해 스팸이라 판단하는 비율- FPR : 정상메일에 대해 스팸이라 판단하는 비율 binary classifier는 0.5 를 기준으로 판단을 한다. 만약 이 기준(결정 쓰레시홀드)을 임으로 0.1, 0.3, 0...