본문 바로가기

전체 글125

The /ʤ/ sound & /z/ vs. /ʒ/ 한국말은 목에서 부터 소리를 생성하지 않기 때문에 ʤ 는 어려운 발음. 보통 우리들은 편하게 저, 즈 라고 발음 하는데 잘못된 것이고 목에서 부터 바람을 일으켜 혀와 윗 천정사이에서 흘러 나가도록 해서 "ㅈ" 만 나오게 하면 되지 않을까? /z/ vs. /ʒ/ 차이점은 /z/ 는 바람이 앞 이빨 사이로 빠져나오고 /ʒ/ 는 양 옆 입술 사이로 빠져 나온다는 점. /ʤ/ vs. /ʒ/ as in "judge" vs. "measure" 같은점은 양 옆 입술사이로 바람이 빠져나오면서 발음되는 것이고 다른점은 /ʤ/ 강하게 짧게 끊어 주고, /ʒ/ 는 계속 공기를 내 보내는 점. 2023. 12. 21.
(Word2Vec) model training 사용할 데이터: Reviews From TripAdvisor https://github.com/kavgan/phrase-at-scale/blob/master/data/raw-data/reviews_data.txt.gz import gzip # pip install gensim import gensim import logging logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) gz 화일을 풀고 그 안의 라인별로 읽어 들어 gensim.utils.simple_preprocess() 를 이용해 단어별로 소문자화, 불필요한 조동사등을 제거한 후 단어 별로 tokenizer 한 후 리스트를 돌려준다.. 2023. 12. 21.
(python) logging import logging 선언 logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) 본문 입력 logging.info (f"Done reading data file {len(documents)}") 출력 2023-12-20 23:43:11,581 : INFO : Done reading data file 255404 2023. 12. 20.
10 Mean and Rude English Phrases You Should Never Say! 말해선 안되는 10 가지 뼈있고 무례한 영어 문장 I told you so 내가 그렇게 얘기했잖아 Grow up 철들어 Good for nothing 아무 쓰잘데기 없는 (사람에 대해 쓰면 무례도 100%) Whatever 네 분부대로요 Useless = good for nothing Wake up 집중해! We don't have all day 동료가 일을 느리게 처리할 때 동료에게 쓰는 직접적인 표현 (시간없어! 빨리해!) This is disgusting 맛없어! 완곡한 대체표현: This isn't quite my cup of tea. You snooze, you lose! 민첩하지 못하면 지는거야 (예: 쿠기가 3개 있는데 4명이 달려들어 못집어든 1명에게 하는 말) Wow, you're in .. 2023. 12. 19.
(Word2Vec) training 앞에서 중요한 개념인 skipgram 과 negative sampling을 알아 보았다. 훈련 초기 상태에서 두개의 매트릭스를 생성한다. 하나는 Embedding 매트릭스, 또 하나는 Context 매트릭스이다.데이터세트(dataset)의 입력(input word)과 출력(outputword) 워드들의 embedding데이터가 들어 있다고 생각하자.디멘젼은 embedding_size x vocab_size 이고 embedding_size는 보통은 300인데 앞에 칼럼에서의 샘플은 50 배열을 가지고 있다. 학습 초기에는 Embedding 과 Context 매트릭스의 embedding은 랜덤값을 가지게 있게 되고 학습을 시작함에 따라 1개의 positive(target=1)와 2개의 negative(tar.. 2023. 12. 17.
(Word2Vec) 2. 자연언어처리 모델 아래는 https://jalammar.github.io/illustrated-word2vec/ 사이트를 내 나름대로 간단히 설명한 것이다. Language Modeling 스마트폰에서 문장을 입력할때 다음 단어를 예측하는 것도 자연언어처리를 이용하는 것이다. 간단하게 모델을 표현하면 아래와 같다. 실질적으로 모델은 하나의 출력이 아니라 모든 단어의 가능성의 스코어를 출력하고 키보드 어플리케이션은 가장 스코어가 높은 순서로 표시를 하게 된다. 이제 학습된 모델 내부를 들여다 보면, 1) 각 단어의 Embedding을 참조하고 2) 이를 예측의 계산에 사용한다. Language Model Training window slide 예제 문장 : “Thou shalt not make a machine in the.. 2023. 12. 17.