data science/Artificial Intelligence

Token과 Embedding의 원리 쉽게 이해하기

꼰대코더 2026. 6. 10. 00:28

LLM은 어떻게 단어의 의미를 이해할까?

Token과 Embedding의 원리 쉽게 이해하기

ChatGPT와 같은 LLM(Large Language Model, 대규모 언어 모델)을 공부하다 보면 자주 등장하는 용어가 있습니다.

· Token

· Embedding

· Transformer

하지만 처음 접하면 이런 의문이 생깁니다.

“AI는 글자를 어떻게 이해할까?”

“Token은 무엇이고, Embedding은 왜 필요할까?”

“AI는 어떻게 cat과 dog가 비슷한 단어라는 것을 알게 될까?”

이번 글에서는 LLM이 문장을 이해하는 과정을 최대한 쉽게 설명해 보겠습니다.

인간과 컴퓨터의 차이

사람은 문장을 읽으면 바로 의미를 이해합니다.

예를 들어 다음 문장을 보겠습니다.

고양이는 귀엽다.

사람은 “고양이”가 무엇인지 알고, “귀엽다”의 의미도 알고 있습니다.

하지만 컴퓨터는 다릅니다.

컴퓨터에게는

고
양
이
는
귀
엽
다

가 단순한 문자일 뿐입니다.

즉, 컴퓨터는 단어의 의미를 모릅니다.

그래서 LLM은 먼저 사람이 사용하는 언어를 컴퓨터가 이해할 수 있는 숫자로 변환해야 합니다.

Token이란 무엇인가?

Token은 AI가 읽는 최소 단위의 단어 조각입니다.

예를 들어

고양이는 귀엽다.

라는 문장이 있으면 AI는 이를 다음과 같이 분리할 수 있습니다.

고양이
는
귀엽
다

각 조각이 하나의 Token입니다.

영어도 마찬가지입니다.

I love cats

는

I
love
cats

와 같이 나뉠 수 있습니다.

즉,

Token은 AI가 문장을 읽기 위해 사용하는 단어 조각이라고 생각하면 됩니다.

Token은 어떻게 만들어질까?

그렇다면 누가 Token을 정할까요?

LLM은 학습 전에 엄청난 양의 문서를 분석합니다.

예를 들어 다음 단어들이 매우 자주 등장한다고 가정해 보겠습니다.

cat
dog
computer
house
school

이러한 단어들은 하나의 Token으로 등록됩니다.

반면 자주 사용되지 않는 단어는 여러 조각으로 분리됩니다.

예를 들어

supercalifragilistic

같은 긴 단어는

super
cali
frag
ilistic

처럼 나뉠 수 있습니다.

이 과정을 Tokenization이라고 부릅니다.

Token에는 번호가 붙는다

컴퓨터는 문자보다 숫자를 더 잘 처리합니다.

그래서 모든 Token에는 고유한 번호(ID)가 부여됩니다.

예를 들면

cat      → 1001
dog      → 1002
house    → 1003
computer → 1004

와 같습니다.

문장

cat loves dog

는

1001
567
1002

와 같은 숫자 배열로 변환됩니다.

그런데 숫자만으로는 의미를 알 수 없다

여기서 문제가 생깁니다.

cat = 1001
dog = 1002

라는 숫자만으로는

“cat과 dog가 비슷한 동물이다”

라는 사실을 알 수 없습니다.

번호는 단순한 식별자일 뿐입니다.

마치 사람의 전화번호만 보고 성격을 알 수 없는 것과 같습니다.

그래서 등장한 것이 Embedding입니다.

Embedding이란 무엇인가?

Embedding은 Token을 의미 있는 숫자 벡터로 변환한 것입니다.

예를 들어

cat

이라는 Token은

[0.12, -0.44, 0.89, ...]

와 같은 수백~수천 개의 숫자로 변환됩니다.

dog

는

[0.15, -0.39, 0.92, ...]

와 같이 표현될 수 있습니다.

이 숫자들의 조합이 단어의 특징을 나타냅니다.

Embedding을 쉽게 이해하는 방법

Embedding을 “단어의 성격표”라고 생각해 보겠습니다.

예를 들어 아래와 같은 특징이 있다고 가정해 보겠습니다.

단어	동물	털 있음	탈것
고양이	높음	높음	낮음
강아지	높음	높음	낮음
자동차	낮음	낮음	높음

실제 Embedding은 이렇게 사람이 이해할 수 있는 형태는 아니지만,

결과적으로는 비슷한 역할을 수행합니다.

그래서

cat
dog

는 벡터 공간에서 가까워지고

cat
car

는 멀어집니다.

AI는 어떻게 cat과 dog가 비슷하다는 것을 알게 될까?

AI는 cat과 dog가 비슷하다고 배우는 것이 아니다

많은 사람들이 다음과 같이 생각합니다.

cat = 동물
dog = 동물

그러니까 두 단어가 가까워진다고.

하지만 실제 학습 과정은 전혀 다릅니다.

모델은 오직 하나의 목표만 가지고 있습니다.

다음 토큰을 최대한 정확하게 예측하라.

예를 들어 학습 데이터에 다음과 같은 문장이 있다고 가정해 보겠습니다.

The cat eats fish.
The dog eats meat.
The cat drinks milk.
The dog drinks water.

학습 초기에는

cat = [랜덤]
dog = [랜덤]

입니다.

둘은 아무 관계도 없습니다.

첫 번째 문장 학습

입력:

The cat eats

정답:

fish

모델이 틀린 답을 예측하면 Loss가 발생합니다.

그러면 역전파가 일어나고

cat embedding
eats embedding
Transformer weights

등이 조금 수정됩니다.

두 번째 문장 학습

입력:

The dog eats

정답:

meat

여기서도 비슷한 수정이 일어납니다.

중요한 것은 수정 방향

cat이 등장하는 문장과 dog가 등장하는 문장은 매우 비슷합니다.

The cat eats ...
The dog eats ...

The cat drinks ...
The dog drinks ...

The cat runs ...
The dog runs ...

모델 입장에서는

cat
dog

가 거의 동일한 문법적 위치와 주변 단어를 가집니다.

수학적으로 무슨 일이 일어날까?

간단히 2차원 공간으로 생각해 보겠습니다.

초기 상태:

cat = (8, -3)
dog = (-5, 12)

랜덤 위치입니다.

수많은 학습 샘플을 통해

cat eats
dog eats

cat drinks
dog drinks

cat runs
dog runs

가 반복적으로 등장합니다.

그러면 역전파는

cat

을 사용할 때의 가중치 수정과

dog

을 사용할 때의 가중치 수정을 매우 비슷한 방향으로 만들어 냅니다.

즉,

cat

벡터는

(+0.1, -0.2)
(+0.05, -0.1)
(+0.03, -0.07)
...

만큼 수정되고,

dog

벡터도

(+0.11, -0.19)
(+0.04, -0.09)
(+0.02, -0.08)
...

처럼 거의 비슷한 방향으로 수정됩니다.

수백억 번 반복되면?

비슷한 방향의 업데이트가 계속 누적됩니다.

결국

초기:

cat = (8, -3)
dog = (-5, 12)

였던 것이

학습 후에는

cat = (1.8, 2.2)
dog = (1.9, 2.3)

처럼 가까워질 수 있습니다.

누가

cat과 dog를 붙여라

라고 명령한 적은 없습니다.

그저 비슷한 문맥에서 사용되는 단어들이 비슷한 방향의 그래디언트를 반복적으로 받았기 때문입니다.

Transformer는 무엇을 할까?

Embedding으로 변환된 후에는 Transformer가 등장합니다.

Transformer는 각 단어가 서로 어떤 관계를 가지는지 계산합니다.

예를 들어

고양이는 생선을 먹는다.

라는 문장에서

Transformer는

고양이 ↔ 먹는다
생선 ↔ 먹는다

와 같은 관계를 분석합니다.

이를 통해 문장의 의미를 파악하고 다음 단어를 예측합니다.

ChatGPT가 답변을 만드는 과정

정리하면 ChatGPT는 다음 순서로 동작합니다.

사용자 입력
↓
Tokenization
↓
Token ID 변환
↓
Embedding 변환
↓
Transformer 계산
↓
다음 Token 예측
↓
문장 생성

사람은 문자를 읽지만,

LLM은 결국 숫자 벡터를 처리하는 거대한 수학 모델인 것입니다.

마무리

LLM은 단어의 의미를 직접 배우지 않습니다.

대신 수많은 문장을 읽으며 다음 단어를 예측하는 학습을 반복합니다.

그 과정에서

· Token은 AI가 읽는 단어 조각이 되고

· Embedding은 단어의 특징을 담은 숫자 벡터가 되며

· Transformer는 단어들 간의 관계를 계산합니다.

그리고 이러한 과정이 반복되면서 AI는 자연스럽게

cat ≈ dog
king - man + woman ≈ queen

과 같은 의미적 관계를 학습하게 됩니다.

결국 LLM의 놀라운 언어 능력은 “언어를 이해한다”기보다는, 엄청난 양의 데이터를 통해 학습된 Embedding과 Transformer의 결과라고 볼 수 있습니다.

'data science > Artificial Intelligence' 카테고리의 다른 글

[deep learning] 2. Fashion MNist (pytorch 버젼) (0)	2026.02.07
[deep learning] 2. Fashion MNist (keras 버젼) (0)	2026.02.06
[deep learning] 1. Combined Cycle Power Plant (keras 버젼) (0)	2026.02.06
Transformer (GPT) 가장 쉽게 이해하기 - Part 2 (0)	2025.10.26
Transformer (GPT) 가장 쉽게 이해하기 - Part 1 (0)	2025.10.19

현재글Token과 Embedding의 원리 쉽게 이해하기

꼰대코더

50대 c/c++ .net reactjs flutter deep learning 프로그래머

docker-compose, OpenCV, dockerfile, PDF, Docker, pandas, ECG, ㅜ, react #useEffect, word2vec,

Today :
Yesterday :

꼰대코더

Token과 Embedding의 원리 쉽게 이해하기

LLM은 어떻게 단어의 의미를 이해할까?

Token과 Embedding의 원리 쉽게 이해하기

인간과 컴퓨터의 차이

Token이란 무엇인가?

Token은 어떻게 만들어질까?

Token에는 번호가 붙는다

그런데 숫자만으로는 의미를 알 수 없다

Embedding이란 무엇인가?

Embedding을 쉽게 이해하는 방법

AI는 어떻게 cat과 dog가 비슷하다는 것을 알게 될까?

AI는 cat과 dog가 비슷하다고 배우는 것이 아니다

첫 번째 문장 학습

두 번째 문장 학습

중요한 것은 수정 방향

수학적으로 무슨 일이 일어날까?

수백억 번 반복되면?

Transformer는 무엇을 할까?

ChatGPT가 답변을 만드는 과정

마무리

'data science > Artificial Intelligence' 카테고리의 다른 글

'data science/Artificial Intelligence'의 다른글

티스토리툴바

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Token과 Embedding의 원리 쉽게 이해하기

LLM은 어떻게 단어의 의미를 이해할까?

Token과 Embedding의 원리 쉽게 이해하기

인간과 컴퓨터의 차이

Token이란 무엇인가?

Token은 어떻게 만들어질까?

Token에는 번호가 붙는다

그런데 숫자만으로는 의미를 알 수 없다

Embedding이란 무엇인가?

Embedding을 쉽게 이해하는 방법

AI는 어떻게 cat과 dog가 비슷하다는 것을 알게 될까?

AI는 cat과 dog가 비슷하다고 배우는 것이 아니다

첫 번째 문장 학습

두 번째 문장 학습

중요한 것은 수정 방향

수학적으로 무슨 일이 일어날까?

수백억 번 반복되면?

Transformer는 무엇을 할까?

ChatGPT가 답변을 만드는 과정

마무리

'data science > Artificial Intelligence' 카테고리의 다른 글

'data science/Artificial Intelligence'의 다른글

관련글

티스토리툴바