data science 70

Token과 Embedding의 원리 쉽게 이해하기

LLM은 어떻게 단어의 의미를 이해할까?Token과 Embedding의 원리 쉽게 이해하기ChatGPT와 같은 LLM(Large Language Model, 대규모 언어 모델)을 공부하다 보면 자주 등장하는 용어가 있습니다.· Token· Embedding· Transformer하지만 처음 접하면 이런 의문이 생깁니다.“AI는 글자를 어떻게 이해할까?”“Token은 무엇이고, Embedding은 왜 필요할까?”“AI는 어떻게 cat과 dog가 비슷한 단어라는 것을 알게 될까?”이번 글에서는 LLM이 문장을 이해하는 과정을 최대한 쉽게 설명해 보겠습니다.인간과 컴퓨터의 차이사람은 문장을 읽으면 바로 의미를 이해합니다.예를 들어 다음 문장을 보겠습니다.고양이는 귀엽..

[deep learning] 2. Fashion MNist (pytorch 버젼)

keras 버젼은 아래를 참조 [deep learning] 2. Fashion MNist (keras 버젼)목적1. 이미지 데이터의 분류(classification)2. 학습 데이터의 가공 방법3. 모델의 문제점 분석과 개선 전략 데이터셋 패션_엠니스트 | TensorFlow Datasets이 페이지는 Cloud Translation API를 통해 번역되었습eldercoder.tistory.com 1. 패키지 설치pip install torchpip install torchvision2. 임포트import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport torchimport torch.nn as..

[deep learning] 2. Fashion MNist (keras 버젼)

목적1. 이미지 데이터의 분류(classification)2. 학습 데이터의 가공 방법3. 학습의 조기종료 방법4. 모델의 문제점 분석과 개선 전략5. 학습 모델의 저장과 로드 사용 데이터셋 패션_엠니스트 | TensorFlow Datasets이 페이지는 Cloud Translation API를 통해 번역되었습니다. 패션_엠니스트 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요. Fashion-MNIST는 60,000개의 예제로 구성된www.tensorflow.orgWxH=28x28 의 1채널 그레이 이미지로 60,000개의 학습용과 10,000개의 테스트용으로 구성 레벨 데이터는 아래와 같이 10개 구성0T-shirt/top1Trouser2Pullover3Dress4Co..

[deep learning] 1. Combined Cycle Power Plant (keras 버젼)

목적과거 발전소에서의 조건 [AT: 시간당 평균 온도] [V: 배기진공] [AP: 주위 압력] [RH: 습도] 에 따라 출력 [PE] 데이터를 학습하므로써 새로운 조건에 따라서 예상 출력을 예측하는 모델의 구축.데이터셋 UCI Machine Learning RepositoryThis dataset is licensed under a Creative Commons Attribution 4.0 International (CC BY 4.0) license. This allows for the sharing and adaptation of the datasets for any purpose, provided that the appropriate credit is given.archive.ics.uci.edu1...

Transformer (GPT) 가장 쉽게 이해하기 - Part 2

GPT2 - Small 모델의 예 (GPT2 - Small) Multi Block과 하나의 Block 내에서의 Multi-head Attention 아래는 내 나름대로 궁금했던 점들을 해소한 후에 간소하게 정리한 다이어그램이다. 실질적으로는 중간 중간에 세부 처리가 들어가는 경우가 있다. 입력으로 "I am a" 있을 경우 GPT는 다음에 올 가장 적절한 단어(토큰)을 제시해야 한다. ・입력은 토큰으로 분리되고 다시 Embedding으로 768 차원으로 변환된다. (그 후엔 Positioning Embedding은 생략됐다.)・그 후 12개의 Block(GPT2-Small model의 경우)에 전달된다.(Dropout과 Normalization은 생략됐다.)・각 12개의 Block은 학습(Train)에 ..

CrewAi Flows - 개념편

데코레이터@start()kickoff 시 맨 처음 실행되는 메서드위에 데코레이션@listen(method)파라미터로 지정된 method의 실행이 끝나자 마자 실행되는 메세드위에 데코레이션 @listen(or_(metho1, metho2, ...)파라미터로 지정된 메서드가 각각 끝나면 실행되는 메서드 @listen(and_(method1, method2, ...)파라미터로 지정된 메서드들이 모두 끝나야 실행되는 메서드@router(method)@listen 과 같지만 데코레이션된 메서드는 if .. else .. 로 다르게 리턴을 해야한다.그러면 다음 넘겨받는 메서드들은 @listen("결과값1") @listen("결과값2") 등으로 데코레이션 해서 처리. state 조건 로직 라우터 main.py 에서..

CrewAi Flows - 개요, 설치방법

CrewAI Flows는 CrewAI 내의 기능으로, 구조화된 이벤트 기반 AI 워크플로를 구축하기 위한 오케스트레이션 계층(Orchestration Layer) 역할을 합니다.CrewAI가 자율적인 에이전트 팀(“Crews”)을 생성하기 위한 프레임워크를 제공한다면, Flows는 여기에 제어, 상태 관리(State Management), 그리고 여러 개의 Crew나 단순한 LLM 호출들을 하나의 조직화된 자동화 프로세스로 결합할 수 있는 기능을 추가합니다.즉, CrewAI는 AI 에이전트와 팀을 구축하기 위한 기반 프레임워크이고, Flows는 그 프레임워크 안에서 이러한 팀들과 로직의 실행 순서를 관리하고 제어하기 위한 구체적인 기능입니다. 인스톨※ Python 버젼의 제한 : Python >=3.10..

Transformer (GPT) 가장 쉽게 이해하기 - Part 1

기존 자연언어처리와 Transformer 의 차이“고양이가 쥐를 잡았다. 그것은 매우 빠르다.” RNN/LSTM: “그것은”이 뭔지를 이해하려면 “고양이”를 기억해야 함 하지만 이미 여러 단계를 지나 기억이 약해질 수 있음 → “쥐”로 착각할 수도 😅 Transformer: “그것은”이 “고양이”와 더 강하게 연결되어 있음을 Attention으로 바로 파악 그래서 “그것은 매우 빠르다” → “고양이가 매우 빠르다”라고 올바르게 이해“Self-Attention”이란?문장의 각 단어가 다른 모든 단어를 바라보며,“너랑 나는 얼마나 관련이 있지?”를 점수로 계산하는 방식. ☞ 문장 예시“고양이가 쥐를 쫓았다.” ☞ 단어별로 서로의 관계를 평가합니다.쳐다보는 단어 주로 주목하는..