영문
pip intall nltk
import nltk from nltk import word_tokenize from nltk.tag import pos_tag nltk.download('punkt') text = "I am a boy" word_list =word_tokenize(text) print(word_list) pos_tag(word_list) |
['I', 'am', 'a', 'boy']
[('I', 'PRP'), ('am', 'VBP'), ('a', 'DT'), ('boy', 'NN')]
◈ VBP : 동사
RB : 부사
VBG: 현재부사
IN : 전치사
NN : 명사
NNP: 고유 명사
NNS: 복수형 명사
CC : 접속사
DT : 관사
한글
pip install konlpy
from konlpy.tag import Okt okt = Okt() text = "나는 한 소년입니다" word_list = okt.morphs(text) print(word_list) print(okt.pos(text)) print(okt.nouns(text)) |
['나', '는', '한', '소년', '입니다']
[('나', 'Noun'), ('는', 'Josa'), ('한', 'Verb'), ('소년', 'Noun'), ('입니다', 'Adjective')]
['나', '소년']
일본어
pip install janome
from janome.tokenizer import Tokenizer tokenizer = Tokenizer() text = "わたしは少年です。" word_list = [token.surface for token in tokenizer.tokenize(text)] print(word_list) |
['わたし', 'は', '少年', 'です', '。']
'자연언어처리 (NLP)' 카테고리의 다른 글
wordcloud (0) | 2024.03.13 |
---|---|
stopwords (0) | 2024.03.13 |
(Word2Vec) model training (1) | 2023.12.21 |
(Word2Vec) training (1) | 2023.12.17 |
(Word2Vec) 2. 자연언어처리 모델 (1) | 2023.12.17 |