Transformer 에서 알면 좋은것들

Created
2025/01/07 06:28
Tags

1. Transformer란 무엇인가?

Transformer는 딥 뉴럴 네트워크 아키텍처로, 2017년 논문 **"Attention is All You Need"**에서 처음 제안되었습니다.
GPT 아키텍처(예: ChatGPT의 기본 구조)는 Transformer 아키텍처에서 파생되었습니다.
Transformer의 주요 목적:
초기에는 기계 번역(예: 영어 → 독일어, 영어 → 프랑스어)을 위해 설계.
이후 텍스트 생성, 질문 응답, 감정 분석 등 다양한 작업에도 활용 가능성이 확인됨.

논문 "Attention is All You Need"의 주요 내용

Self-Attention 메커니즘을 통해 모델이 문맥을 효과적으로 이해.
논문은 발표된 지 6~7년 만에 10만 건 이상의 인용을 기록, AI 연구에서 매우 중요한 업적으로 평가받음.

2. Transformer 아키텍처의 작동 원리

Transformer 아키텍처의 간단한 8단계

1.
입력 텍스트: 예: "This is an example."
번역 작업의 경우, 입력 텍스트는 영어 문장.
2.
Pre-processing:
Tokenization(토큰화): 문장을 단어(또는 하위 단어)로 분리하고 각 단어에 고유한 ID를 할당.
예: "Fine tuning is fun." → ["Fine", "tuning", "is", "fun"].
3.
Encoder:
입력 텍스트를 **벡터 임베딩(Vector Embedding)**으로 변환.
벡터 임베딩은 단어 간의 의미적 관계를 반영. 예: "dog"와 "puppy"는 벡터 공간에서 가까운 위치.
4.
Embedding 생성:
단어들을 고차원 벡터 공간으로 매핑하여 의미적 관계를 학습.
5.
Decoder:
부분적으로 번역된 출력 텍스트(예: "Das ist ein...")를 입력받아 다음 단어를 예측.
6.
출력 단어 생성:
한 번에 한 단어씩 번역을 완성.
7.
최종 번역 출력:
예: "Das ist ein Beispiel" (독일어로 "This is an example").
8.
학습:
Neural Network 학습처럼, 손실 함수(Loss Function)를 통해 모델 성능을 점진적으로 개선.

Self-Attention 메커니즘의 역할

Self-Attention: 문맥을 이해하기 위해 단어 간 중요도를 계산.
예: "Harry Potter is at the station." 문장에서 "Harry"와 "station"의 관계를 고려.
긴 문장에서 문맥을 이해하고, 과거 문장에서 중요한 단어에 더 많은 "주의(attention)"를 할당.

3. Transformer 아키텍처의 확장 - BERT와 GPT

BERT (Bidirectional Encoder Representations from Transformers)

작동 방식:
문장에서 단어를 마스킹(masking)하고, 마스킹된 단어를 예측.
예: "This is an ___ of how LLM ___." → "example", "works" 예측.
특징:
양방향(bidirectional)으로 문맥 이해: 문장의 양쪽 방향에서 단어 관계를 분석.
응용 분야: 감정 분석(Sentiment Analysis).

GPT (Generative Pre-trained Transformers)

작동 방식:
입력 텍스트에서 다음 단어를 생성.
예: "This is an example of how LLM..." → "works" 예측.
특징:
좌 → 우(left-to-right) 순서로 단어 생성.
응용 분야: 텍스트 생성, 질문 응답, 요약 등.

BERT와 GPT의 차이점

BERT:
입력 텍스트의 모든 방향에서 문맥 이해.
문장에서 임의의 단어를 예측.
Encoder만 사용.
GPT:
좌 → 우 방향으로 다음 단어를 생성.
Decoder만 사용.

4. Transformer와 LLM의 차이점

Transformer ≠ LLM

Transformer는 LLM뿐만 아니라 컴퓨터 비전(CV)에도 사용 가능.
예: Vision Transformer(ViT)를 활용한 이미지 분류, 암 진단, 도로 포트홀 탐지.

LLM ≠ Transformer

LLM은 Transformer 외에도 RNN, LSTM, CNN 기반으로 설계 가능.
RNN(순환 신경망): 피드백 루프를 통해 과거 데이터를 활용.
LSTM(장단기 메모리 네트워크): 단기 기억과 장기 기억을 병합하여 학습.
Transformer 도입 전, RNN과 LSTM도 텍스트 생성 및 분석에 사용됨.

오늘의 주요 학습 내용

1.
Transformer 아키텍처는 현대 LLM의 핵심.
2.
"Attention is All You Need" 논문은 번역 작업을 위해 Transformer를 제안.
3.
Transformer의 8단계: 입력 텍스트 → 토큰화 → 임베딩 → 디코딩 → 출력.
4.
Self-Attention 메커니즘은 문맥을 이해하고, 단어 간 중요도를 계산.
5.
BERT와 GPT의 차이점:
BERT는 양방향 학습, GPT는 좌 → 우 단어 예측.
6.
Transformer와 LLM은 같은 개념이 아니며, 서로 다른 응용 가능.