(python) PDF 내의 텍스트 추출하기

data science/python

(python) PDF 내의 텍스트 추출하기

꼰대코더 2023. 12. 3. 02:35

PDF내의 텍스트를 추출하는 Python 용 pdfminer.six 를 소개한다.

인스톨 (python 3.8 이상)

pip install pdfminer.six

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
import re 

# PDF 화일 오픈
pdfname = "./sample.pdf"
fp = open(pdfname, 'rb')

# 리소스 매니저 인스턴스 생성
rsrcmgr = PDFResourceManager()

# 출력용 StringIO 인스턴스 생성
outfp = StringIO()

# 파라미터 인스턴스 생성
laparams = LAParams()
# 혹시 세로쓰기 형식의 PDF라면 
# laparams.detect_vertical = True

device = TextConverter(rsrcmgr, outfp, codec='utf-8', laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)

# 전체 페이지  maxpages=0,  만약 5페이지까지라면  maxpages=5
for page in PDFPage.get_pages(fp, pagenos=None, maxpages=0, password=None,caching=True, check_extractable=True):
        interpreter.process_page(page)

# 전체 텍스트를 취득
ret = outfp.getvalue()

fp.close()
device.close()
outfp.close()
   
# 문자열중에 개행(\r\n) tab(\t) 또는 스페이스를 없앰
ret = re.sub(r"\s|　",'',ret)

'data science > python' 카테고리의 다른 글

numpy 조건에 맞는 값들만 뽑아내기 (0)	2024.01.07
list ( [ , ], [ , ] ... ) 최대, 최소값 구하기 (0)	2024.01.07
2중 in 을 사용하여 리스트 만들기 (0)	2024.01.06
(python) logging (1)	2023.12.20
(python) text 를 길이 단위로 분리 (0)	2023.12.06

현재글(python) PDF 내의 텍스트 추출하기

꼰대코더

50대 c/c++ .net reactjs flutter deep learning 프로그래머

Docker, docker-compose, PDF, ㅜ, ECG, word2vec, OpenCV, dockerfile, react #useEffect, pandas,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

꼰대코더

(python) PDF 내의 텍스트 추출하기

PDF내의 텍스트를 추출하는 Python 용 pdfminer.six 를 소개한다.

'data science > python' 카테고리의 다른 글

'data science/python'의 다른글

티스토리툴바

(python) PDF 내의 텍스트 추출하기

PDF내의 텍스트를 추출하는 Python 용 pdfminer.six 를 소개한다.

'data science > python' 카테고리의 다른 글

'data science/python'의 다른글

관련글

티스토리툴바