data science 66

(VGG16) Fine tunning

VGG16 Max-pooling, Flatten, Normalization 레이어들을 제외한 16개의 레이어들로 구성되어 있다. 1000 종류의 이미지로 구성되어 있는 ImageNet 이미지 데이터셋을 가지고 학습을 하였기 때문에 마지막 레이어인 SoftMax에 의해 분류되는 클래스는 1000 개가 된다. 모델의 하위 레이어들은 특징 추출(feature extraction)에 집중을 하고 상위 레이들은 분류(classification)에 사용된다. 그러므로 Fine tunning은 아래 레이어들의 파라미터는 고정을 시켜 놓고 상위 레이어들을 목적에 알맞게 갈아치워서 새롭게 변한 상위 레이어들의 파라미터만 학습하는 원리가 된다. 위 하단의 이미지로 보면 상단의 레이어들이 하위 레이어에 해당되고 하단의 레이..

(python) text 를 길이 단위로 분리

OpenAI Embedding 기능을 사용하기 위해 PDF 에서 Text를 추출하여 특정 길이로 분리할 필요가 있었어 langchain 의 CharacterTextSplitter 를 사용하였다. 인스톨 pip install langchain CharacterTextSplitter from langchain.text_splitter import CharacterTextSplitter story = '어느 마을에 양치기 소년이 하나 있었는데,\n 늑대들이 나타나 양을 물어간다느니 잡아먹는다느니 식으로 수시로 장난삼아 소리치곤 했다. 두세 번 정도는 마을 사람들이 놀라 부리나케 달려왔다. 하지만 그 때마다 골탕을 먹고 바보가 된 기분으로 화를 내거나 투덜거리며 돌아갔다.\n 그러던 어느 날 진짜로 늑대가 나타..

data science/python 2023.12.06

(python) PDF 내의 텍스트 추출하기

PDF내의 텍스트를 추출하는 Python 용 pdfminer.six 를 소개한다. 인스톨 (python 3.8 이상) pip install pdfminer.six from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage from io import StringIO import re # PDF 화일 오픈 pdfname = "./sample.pdf" fp = open(pdfname, 'rb') # 리소스 매니저 인스턴스 생성 rsrc..

data science/python 2023.12.03

(pandas) Youtube 노빠꾸탁재훈 채널 분석

import pandas as pd df = pd.read_csv("노빠꾸탁재훈.csv") ※ 노빠꾸탁재훈.csv 생성 방법 -> (pandas) 분석용 youtube 채널 데이터(DataFrame) 만들기 통계정보 df.describe() index Unnamed: 0 tag_count view_count like_count dislike_count comment_count reactions count 110 110 110 110 110 110 110 mean 54.5 45.418182 1997622.7 23483.545 0 1742.6091 26968.764 std 31.898276 40.035164 1673348.5 19756.041 0 1838.4978 23041.672 min 0 0 21776 ..

data science/pandas 2023.11.18

(pandas) 분석용 youtube 채널 데이터(DataFrame) 만들기

준비물 Youtube API Key (free) 취득방법은 아래 사이트의 중간부분 참조 https://blog.hubspot.com/website/how-to-get-youtube-api-key 모듈 인스톨 pip3 install pandas pip3 install google-api-python-client 분석할 채널 ID Youtube채널 사이트에 들어가서 페이지 소스 보기 channelId 로 검색 예) 노빠꾸탁재훈 https://www.youtube.com/@nobacktak channelId : UCSSkHIU1-nL_FeCjeZ_Xtvg Python Code from googleapiclient.discovery import build import os import pandas as pd A..

data science/pandas 2023.11.18