전체 글 206

SVM(Support Vector Machines) Classifier

별과 삼각형을 분류하기 위해서 가장 넓은 하늘색 공간(maximum marginal hyperplane(MMH))을 찾는 알고리즘이다. 이 공간을 계산하기 위해 인접한 Support Vectors 라 불리는 데이터 포인트를 이용하게 된다. from sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn import svmfrom sklearn.metrics import classification_report, confusion_matriximport pandas as pdimport seaborn as snsiris = sns.load_dataset('iris')X_i..

K-Neighbors Classifier

K-Neighbors Classifier란 분류하고자 하는 샘플(Pt)과 가장 가까운 K개의 이웃들 중 가장 많이 속해있는 클래스를 선택하는 분류기이다.만약 k=3으로 하면 별은 보라색원에 속하는 것이고(보라색원 2 > 노란색원 1)만약 k=6으로 하면 별은 노란색원에 속하게 된다   (보라색원 2   아래는 IRIS 데이터셋의 샘플from sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.metrics import classification_report, confusion_..

Sales data 분석

URL Sales data 로딩Data Processing1. missing data 찾기2. missing data를 로우(axis=0) 단위로 자체(inplace=True)에서 삭제하고 확인하기3.  불순 데이터(엉터리 데이터 = 같은 형타입이 아닌) 삭제4. 중복된 data 보기Feature Engineering1. 주문당 구매액( Total  ) 생성2. Order Date 를 월일시로 분리3. Purchse Address 를 주소, 시, 주, 우편번호로 분리4. State 와 ZIP 으로 재 분리5. 불필요한 칼럼들 삭제6. Order Date 순으로 정렬Sales 분석1. 매출액이 가장 큰 달은?2. 각 달의 요일별 주문수는?3. 시간대별 주문수는?4. 가장 많이 팔린 제품은?5. 각 도시별 ..

data science/pandas 2025.03.12

복수의 DataFrame들을 수직방향으로 통합하기

population_dict = { 'California': 39538223,                               'Texas': 29145505,                                'Florida': 21538187,                                'New York': 20201249,                                'Pennsylvania': 13002700 }population1 = pd.Series(population_dict)population_list = [39538223, 29145505, 21538187, 20201249, 13002700]population2 = pd.Series( population..

data science/pandas 2025.03.12