본문 바로가기
자연언어처리 (NLP)

워드 토큰화

by 꼰대코더 2024. 3. 13.

영문

pip intall nltk

import nltk 
from nltk import word_tokenize
from nltk.tag import pos_tag

nltk.download('punkt')

text = "I am a boy"
word_list =word_tokenize(text)
print(word_list)

pos_tag(word_list)

 

['I', 'am', 'a', 'boy']

[('I', 'PRP'), ('am', 'VBP'), ('a', 'DT'), ('boy', 'NN')]

◈ VBP : 동사

    RB   : 부사

    VBG: 현재부사

    IN    : 전치사

    NN   : 명사

    NNP: 고유 명사

    NNS: 복수형 명사

    CC  : 접속사

    DT   : 관사

 

한글

pip install konlpy

from konlpy.tag import Okt

okt = Okt()

text = "나는 한 소년입니다"
word_list = okt.morphs(text)
print(word_list)

print(okt.pos(text))
print(okt.nouns(text))

 

['나', '는', '한', '소년', '입니다']
[('나', 'Noun'), ('는', 'Josa'), ('한', 'Verb'), ('소년', 'Noun'), ('입니다', 'Adjective')]
['나', '소년']

 

일본어

pip install janome

from janome.tokenizer import Tokenizer

tokenizer = Tokenizer()

text = "わたしは少年です。"
word_list =  [token.surface for token in tokenizer.tokenize(text)]

print(word_list)

 

['わたし', 'は', '少年', 'です', '。']

'자연언어처리 (NLP)' 카테고리의 다른 글

wordcloud  (0) 2024.03.13
stopwords  (0) 2024.03.13
(Word2Vec) model training  (1) 2023.12.21
(Word2Vec) training  (1) 2023.12.17
(Word2Vec) 2. 자연언어처리 모델  (1) 2023.12.17