본문 바로가기

분류 전체보기130

(Word2Vec) model training 사용할 데이터: Reviews From TripAdvisor https://github.com/kavgan/phrase-at-scale/blob/master/data/raw-data/reviews_data.txt.gz import gzip # pip install gensim import gensim import logging logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) gz 화일을 풀고 그 안의 라인별로 읽어 들어 gensim.utils.simple_preprocess() 를 이용해 단어별로 소문자화, 불필요한 조동사등을 제거한 후 단어 별로 tokenizer 한 후 리스트를 돌려준다.. 2023. 12. 21.
(python) logging import logging 선언 logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) 본문 입력 logging.info (f"Done reading data file {len(documents)}") 출력 2023-12-20 23:43:11,581 : INFO : Done reading data file 255404 2023. 12. 20.
10 Mean and Rude English Phrases You Should Never Say! 말해선 안되는 10 가지 뼈있고 무례한 영어 문장 I told you so 내가 그렇게 얘기했잖아 Grow up 철들어 Good for nothing 아무 쓰잘데기 없는 (사람에 대해 쓰면 무례도 100%) Whatever 네 분부대로요 Useless = good for nothing Wake up 집중해! We don't have all day 동료가 일을 느리게 처리할 때 동료에게 쓰는 직접적인 표현 (시간없어! 빨리해!) This is disgusting 맛없어! 완곡한 대체표현: This isn't quite my cup of tea. You snooze, you lose! 민첩하지 못하면 지는거야 (예: 쿠기가 3개 있는데 4명이 달려들어 못집어든 1명에게 하는 말) Wow, you're in .. 2023. 12. 19.
(Word2Vec) training 앞에서 중요한 개념인 skipgram 과 negative sampling을 알아 보았다. 훈련 초기 상태에서 두개의 매트릭스를 생성한다. 하나는 Embedding 매트릭스, 또 하나는 Context 매트릭스이다.데이터세트(dataset)의 입력(input word)과 출력(outputword) 워드들의 embedding데이터가 들어 있다고 생각하자.디멘젼은 embedding_size x vocab_size 이고 embedding_size는 보통은 300인데 앞에 칼럼에서의 샘플은 50 배열을 가지고 있다. 학습 초기에는 Embedding 과 Context 매트릭스의 embedding은 랜덤값을 가지게 있게 되고 학습을 시작함에 따라 1개의 positive(target=1)와 2개의 negative(tar.. 2023. 12. 17.