본문 바로가기

data science22

(VGG16) Fine tunning VGG16 Max-pooling, Flatten, Normalization 레이어들을 제외한 16개의 레이어들로 구성되어 있다. 1000 종류의 이미지로 구성되어 있는 ImageNet 이미지 데이터셋을 가지고 학습을 하였기 때문에 마지막 레이어인 SoftMax에 의해 분류되는 클래스는 1000 개가 된다. 모델의 하위 레이어들은 특징 추출(feature extraction)에 집중을 하고 상위 레이들은 분류(classification)에 사용된다. 그러므로 Fine tunning은 아래 레이어들의 파라미터는 고정을 시켜 놓고 상위 레이어들을 목적에 알맞게 갈아치워서 새롭게 변한 상위 레이어들의 파라미터만 학습하는 원리가 된다. 위 하단의 이미지로 보면 상단의 레이어들이 하위 레이어에 해당되고 하단의 레이.. 2024. 1. 1.
(python) logging import logging 선언 logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) 본문 입력 logging.info (f"Done reading data file {len(documents)}") 출력 2023-12-20 23:43:11,581 : INFO : Done reading data file 255404 2023. 12. 20.
(python) text 를 길이 단위로 분리 OpenAI Embedding 기능을 사용하기 위해 PDF 에서 Text를 추출하여 특정 길이로 분리할 필요가 있었어 langchain 의 CharacterTextSplitter 를 사용하였다. 인스톨 pip install langchain CharacterTextSplitter from langchain.text_splitter import CharacterTextSplitter story = '어느 마을에 양치기 소년이 하나 있었는데,\n 늑대들이 나타나 양을 물어간다느니 잡아먹는다느니 식으로 수시로 장난삼아 소리치곤 했다. 두세 번 정도는 마을 사람들이 놀라 부리나케 달려왔다. 하지만 그 때마다 골탕을 먹고 바보가 된 기분으로 화를 내거나 투덜거리며 돌아갔다.\n 그러던 어느 날 진짜로 늑대가 나타.. 2023. 12. 6.
(python) PDF 내의 텍스트 추출하기 PDF내의 텍스트를 추출하는 Python 용 pdfminer.six 를 소개한다. 인스톨 (python 3.8 이상) pip install pdfminer.six from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage from io import StringIO import re # PDF 화일 오픈 pdfname = "./sample.pdf" fp = open(pdfname, 'rb') # 리소스 매니저 인스턴스 생성 rsrc.. 2023. 12. 3.