'data science/python' 카테고리의 글 목록 (3 Page)

data science/python 29

my_list = [ 'I', 'am', 'a', 'boy' ] 스페이스를 넣어 붙이기 my_list_str = ' '.join(my_list) -> 'I am a boy' 인덱스로 뽑아내기 # list 에 있어서 범위밖의 인덱스를 지정하면 예외 발생 my_str = my_list[10] (x) # 레인지지정시 범위밖이라도 예외는 발생하지 않는다. my_str = my_list[6: ] -> 공백 my_list = [1, 2, 3, 4, 5] 숫자 리스트를 문자열로 변환 my_lst_str = ''.join(map(str, my_lst)) -> 12345

data science/python 2024.02.02

오버랩핑된 문자열 잇기

openai 의 whisper 를 이용하여 음성을 문자변환시에 한번에 변환할 수 있는 용량이 25MB 이기 때문에 이보다 큰 음성파일의 경우는 pypub 라이브러리를 이용하여 작게 분리를 해서 처리를 해야 한다. 이때 강제적으로 사이즈만큼 분리를 하면 대화중의 음성이 끊어지게 되므로 앞뒤를 약간 오버랩핑하게 하여 각각 변환을 하면 똑같은 대화 문자열이 각 음성파일의 맨 뒤와 맨 처음 오버랩핑되어 출력된다. 이 오버랩핑된 문자열을 자연스럽게 한 문장으로 만드는 방법은 아래와 같다. ( 음성파일을 분석하여 무음인 상태를 발견하여 분리하는 방법도 시도해 봤지만, 노이즈가 섞여있기 때문에 어렵다. ) string1 = 'Hello how are you' string2 = 'are you doing now?' i..

data science/python 2024.02.02

tuple 변경하기

tuple 은 읽기만 가능하고 변경할 수 없지만 아래와 같이 트릭을 쓰면 변경이 가능하다. mytuple = ("I", "am", "korean") mylist = list(mytuple) mylist[2] = "american" mytuple = tuple(mylist) print(mytuple) -> ('I', 'am', 'american')

data science/python 2024.01.28

numpy 조건에 맞는 값들만 뽑아내기

b > 3 를 만족하는 인덱스를 a 에서 뽑아내기 a = np.array([1,1,1,2,2,2]) b = np.array([4,6,1,8,2,1]) 방법-1 new_a = a[ b > 3 ] 방법-2 new_a = a[ np.where(b>3)[0] ]

data science/python 2024.01.07

list ( [ , ], [ , ] ... ) 최대, 최소값 구하기

리스트안에 또 다른 리스트나 tuple 이 있을 경우, 어느 한쪽 값의 최대 최소 값을 구하고자 할 때 lambda 를 사용 lists = [ [1, 'A' ], [9, 'B' ], [7, 'C' ], [2, 'D' ] ] # 앞의 숫자의 최소값을 가지는 알파벳 구하기 min_value = min( lists , key=lambda n: n[0])[1]

data science/python 2024.01.07

2중 in 을 사용하여 리스트 만들기

0 - 10 까지 짝수일 경우 1, 아닐경우 0 의 리스트 생성 import numpy as np ten_list = np.arange(0, 11).tolist() evens = [0, 2, 4, 6, 8, 10] even_list = [1 if x in evens else 0 for x in ten_list]

data science/python 2024.01.06

(python) logging

import logging 선언 logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) 본문 입력 logging.info (f"Done reading data file {len(documents)}") 출력 2023-12-20 23:43:11,581 : INFO : Done reading data file 255404

data science/python 2023.12.20

(python) text 를 길이 단위로 분리

OpenAI Embedding 기능을 사용하기 위해 PDF 에서 Text를 추출하여 특정 길이로 분리할 필요가 있었어 langchain 의 CharacterTextSplitter 를 사용하였다. 인스톨 pip install langchain CharacterTextSplitter from langchain.text_splitter import CharacterTextSplitter story = '어느 마을에 양치기 소년이 하나 있었는데,\n 늑대들이 나타나 양을 물어간다느니 잡아먹는다느니 식으로 수시로 장난삼아 소리치곤 했다. 두세 번 정도는 마을 사람들이 놀라 부리나케 달려왔다. 하지만 그 때마다 골탕을 먹고 바보가 된 기분으로 화를 내거나 투덜거리며 돌아갔다.\n 그러던 어느 날 진짜로 늑대가 나타..

data science/python 2023.12.06

(python) PDF 내의 텍스트 추출하기

PDF내의 텍스트를 추출하는 Python 용 pdfminer.six 를 소개한다. 인스톨 (python 3.8 이상) pip install pdfminer.six from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage from io import StringIO import re # PDF 화일 오픈 pdfname = "./sample.pdf" fp = open(pdfname, 'rb') # 리소스 매니저 인스턴스 생성 rsrc..

data science/python 2023.12.03

1 2 3

꼰대코더

50대 c/c++ .net reactjs flutter deep learning 프로그래머

Docker, OpenCV, word2vec, PDF, docker-compose, ㅜ, pandas, ECG, react #useEffect, dockerfile,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

data science/python 29

티스토리툴바