data science/Artificial Intelligence

Token과 Embedding의 원리 쉽게 이해하기

꼰대코더 2026. 6. 10. 00:28

LLM 어떻게 단어의 의미를 이해할까?

Token Embedding 원리 쉽게 이해하기

ChatGPT 같은 LLM(Large Language Model, 대규모 언어 모델) 공부하다 보면 자주 등장하는 용어가 있습니다.

·         Token

·         Embedding

·         Transformer

하지만 처음 접하면 이런 의문이 생깁니다.

“AI 글자를 어떻게 이해할까?”

“Token 무엇이고, Embedding 필요할까?”

“AI 어떻게 cat dog 비슷한 단어라는 것을 알게 될까?”

이번 글에서는 LLM 문장을 이해하는 과정을 최대한 쉽게 설명해 보겠습니다.


인간과 컴퓨터의 차이

사람은 문장을 읽으면 바로 의미를 이해합니다.

예를 들어 다음 문장을 보겠습니다.

고양이는 귀엽다.

사람은고양이 무엇인지 알고, “귀엽다 의미도 알고 있습니다.

하지만 컴퓨터는 다릅니다.

컴퓨터에게는







단순한 문자일 뿐입니다.

, 컴퓨터는 단어의 의미를 모릅니다.

그래서 LLM 먼저 사람이 사용하는 언어를 컴퓨터가 이해할 있는 숫자로 변환해야 합니다.


Token이란 무엇인가?

Token AI 읽는 최소 단위의 단어 조각입니다.

예를 들어

고양이는 귀엽다.

라는 문장이 있으면 AI 이를 다음과 같이 분리할 있습니다.

고양이

귀엽

조각이 하나의 Token입니다.

영어도 마찬가지입니다.

I love cats

I
 love
 cats

같이 나뉠 있습니다.

,

Token AI 문장을 읽기 위해 사용하는 단어 조각이라고 생각하면 됩니다.


Token 어떻게 만들어질까?

그렇다면 누가 Token 정할까요?

LLM 학습 전에 엄청난 양의 문서를 분석합니다.

예를 들어 다음 단어들이 매우 자주 등장한다고 가정해 보겠습니다.

cat
dog
computer
house
school

이러한 단어들은 하나의 Token으로 등록됩니다.

반면 자주 사용되지 않는 단어는 여러 조각으로 분리됩니다.

예를 들어

supercalifragilistic

같은 단어는

super
cali
frag
ilistic

처럼 나뉠 있습니다.

과정을 Tokenization이라고 부릅니다.


Token에는 번호가 붙는다

컴퓨터는 문자보다 숫자를 처리합니다.

그래서 모든 Token에는 고유한 번호(ID) 부여됩니다.

예를 들면

cat      → 1001
dog      → 1002
house    → 1003
computer → 1004

같습니다.

문장

cat loves dog

1001
567
1002

같은 숫자 배열로 변환됩니다.


그런데 숫자만으로는 의미를 없다

여기서 문제가 생깁니다.

cat = 1001
dog = 1002

라는 숫자만으로는

“cat dog 비슷한 동물이다

라는 사실을 없습니다.

번호는 단순한 식별자일 뿐입니다.

마치 사람의 전화번호만 보고 성격을 없는 것과 같습니다.

그래서 등장한 것이 Embedding입니다.


Embedding이란 무엇인가?

Embedding Token 의미 있는 숫자 벡터로 변환한 것입니다.

예를 들어

cat

이라는 Token

[0.12, -0.44, 0.89, ...]

같은 수백~수천 개의 숫자로 변환됩니다.

dog

[0.15, -0.39, 0.92, ...]

같이 표현될 있습니다.

숫자들의 조합이 단어의 특징을 나타냅니다.


Embedding 쉽게 이해하는 방법

Embedding단어의 성격표라고 생각해 보겠습니다.

예를 들어 아래와 같은 특징이 있다고 가정해 보겠습니다.

단어 동물 있음 탈것
고양이 높음 높음 낮음
강아지 높음 높음 낮음
자동차 낮음 낮음 높음

실제 Embedding 이렇게 사람이 이해할 있는 형태는 아니지만,

결과적으로는 비슷한 역할을 수행합니다.

그래서

cat
dog

벡터 공간에서 가까워지고

cat
car

멀어집니다.


AI 어떻게 cat dog 비슷하다는 것을 알게 될까?

AI는 cat과 dog가 비슷하다고 배우는 것이 아니다

많은 사람들이 다음과 같이 생각합니다.

cat = 동물
dog = 동물
 

그러니까 두 단어가 가까워진다고.

하지만 실제 학습 과정은 전혀 다릅니다.

모델은 오직 하나의 목표만 가지고 있습니다.

다음 토큰을 최대한 정확하게 예측하라.


예를 들어 학습 데이터에 다음과 같은 문장이 있다고 가정해 보겠습니다.

The cat eats fish.
The dog eats meat.
The cat drinks milk.
The dog drinks water.
 

학습 초기에는

cat = [랜덤]
dog = [랜덤]
 

입니다.

둘은 아무 관계도 없습니다.


첫 번째 문장 학습

입력:

The cat eats
 

정답:

fish
 

모델이 틀린 답을 예측하면 Loss가 발생합니다.

그러면 역전파가 일어나고

cat embedding
eats embedding
Transformer weights
 

등이 조금 수정됩니다.


두 번째 문장 학습

입력:

The dog eats
 

정답:

meat
 

여기서도 비슷한 수정이 일어납니다.


중요한 것은 수정 방향

cat이 등장하는 문장과 dog가 등장하는 문장은 매우 비슷합니다.

The cat eats ...
The dog eats ...
 
The cat drinks ...
The dog drinks ...
 
The cat runs ...
The dog runs ...
 

모델 입장에서는

cat
dog
 

가 거의 동일한 문법적 위치와 주변 단어를 가집니다.


수학적으로 무슨 일이 일어날까?

간단히 2차원 공간으로 생각해 보겠습니다.

초기 상태:

cat = (8, -3)
dog = (-5, 12)
 

랜덤 위치입니다.


수많은 학습 샘플을 통해

cat eats
dog eats
 
cat drinks
dog drinks
 
cat runs
dog runs
 

가 반복적으로 등장합니다.

그러면 역전파는

cat
 

을 사용할 때의 가중치 수정과

dog
 

을 사용할 때의 가중치 수정을 매우 비슷한 방향으로 만들어 냅니다.

즉,

cat
 

벡터는

(+0.1, -0.2)
(+0.05, -0.1)
(+0.03, -0.07)
...
 

만큼 수정되고,

dog
 

벡터도

(+0.11, -0.19)
(+0.04, -0.09)
(+0.02, -0.08)
...
 

처럼 거의 비슷한 방향으로 수정됩니다.


수백억 번 반복되면?

비슷한 방향의 업데이트가 계속 누적됩니다.

결국

초기:

cat = (8, -3)
dog = (-5, 12)
 

였던 것이

학습 후에는

cat = (1.8, 2.2)
dog = (1.9, 2.3)
 

처럼 가까워질 수 있습니다.

누가

cat과 dog를 붙여라
 

라고 명령한 적은 없습니다.

그저 비슷한 문맥에서 사용되는 단어들이 비슷한 방향의 그래디언트를 반복적으로 받았기 때문입니다.


Transformer 무엇을 할까?

Embedding으로 변환된 후에는 Transformer 등장합니다.

Transformer 단어가 서로 어떤 관계를 가지는지 계산합니다.

예를 들어

고양이는 생선을 먹는다.

라는 문장에서

Transformer

고양이먹는다
생선먹는다

같은 관계를 분석합니다.

이를 통해 문장의 의미를 파악하고 다음 단어를 예측합니다.


ChatGPT 답변을 만드는 과정

정리하면 ChatGPT 다음 순서로 동작합니다.

사용자 입력

Tokenization

Token ID
변환

Embedding
변환

Transformer
계산

다음 Token 예측

문장 생성

사람은 문자를 읽지만,

LLM 결국 숫자 벡터를 처리하는 거대한 수학 모델인 것입니다.


마무리

LLM 단어의 의미를 직접 배우지 않습니다.

대신 수많은 문장을 읽으며 다음 단어를 예측하는 학습을 반복합니다.

과정에서

·         Token AI 읽는 단어 조각이 되고

·         Embedding 단어의 특징을 담은 숫자 벡터가 되며

·         Transformer 단어들 간의 관계를 계산합니다.

그리고 이러한 과정이 반복되면서 AI 자연스럽게

cat ≈ dog
king - man + woman ≈ queen

같은 의미적 관계를 학습하게 됩니다.

결국 LLM 놀라운 언어 능력은언어를 이해한다기보다는, 엄청난 양의 데이터를 통해 학습된 Embedding Transformer 결과라고 있습니다.