Transformer 에서 알면 좋은것들

Created

2025/01/07 06:28

1. Transformer란 무엇인가?

•

Transformer는 딥 뉴럴 네트워크 아키텍처로, 2017년 논문 **"Attention is All You Need"**에서 처음 제안되었습니다.

•

GPT 아키텍처(예: ChatGPT의 기본 구조)는 Transformer 아키텍처에서 파생되었습니다.

•

Transformer의 주요 목적:

◦

초기에는 기계 번역(예: 영어 → 독일어, 영어 → 프랑스어)을 위해 설계.

◦

이후 텍스트 생성, 질문 응답, 감정 분석 등 다양한 작업에도 활용 가능성이 확인됨.

논문 "Attention is All You Need"의 주요 내용

•

Self-Attention 메커니즘을 통해 모델이 문맥을 효과적으로 이해.

•

논문은 발표된 지 6~7년 만에 10만 건 이상의 인용을 기록, AI 연구에서 매우 중요한 업적으로 평가받음.

2. Transformer 아키텍처의 작동 원리

Transformer 아키텍처의 간단한 8단계

입력 텍스트: 예: "This is an example."

•

번역 작업의 경우, 입력 텍스트는 영어 문장.

Pre-processing:

•

Tokenization(토큰화): 문장을 단어(또는 하위 단어)로 분리하고 각 단어에 고유한 ID를 할당.

•

예: "Fine tuning is fun." → ["Fine", "tuning", "is", "fun"].

Encoder:

•

입력 텍스트를 **벡터 임베딩(Vector Embedding)**으로 변환.

•

벡터 임베딩은 단어 간의 의미적 관계를 반영. 예: "dog"와 "puppy"는 벡터 공간에서 가까운 위치.

Embedding 생성:

•

단어들을 고차원 벡터 공간으로 매핑하여 의미적 관계를 학습.

Decoder:

•

부분적으로 번역된 출력 텍스트(예: "Das ist ein...")를 입력받아 다음 단어를 예측.

출력 단어 생성:

•

한 번에 한 단어씩 번역을 완성.

최종 번역 출력:

•

예: "Das ist ein Beispiel" (독일어로 "This is an example").

학습:

•

Neural Network 학습처럼, 손실 함수(Loss Function)를 통해 모델 성능을 점진적으로 개선.

Self-Attention 메커니즘의 역할

•

Self-Attention: 문맥을 이해하기 위해 단어 간 중요도를 계산.

◦

예: "Harry Potter is at the station." 문장에서 "Harry"와 "station"의 관계를 고려.

◦

긴 문장에서 문맥을 이해하고, 과거 문장에서 중요한 단어에 더 많은 "주의(attention)"를 할당.

3. Transformer 아키텍처의 확장 - BERT와 GPT

BERT (Bidirectional Encoder Representations from Transformers)

•

작동 방식:

◦

문장에서 단어를 마스킹(masking)하고, 마스킹된 단어를 예측.

◦

예: "This is an ___ of how LLM ___." → "example", "works" 예측.

◦

특징:

▪

양방향(bidirectional)으로 문맥 이해: 문장의 양쪽 방향에서 단어 관계를 분석.

▪

응용 분야: 감정 분석(Sentiment Analysis).

GPT (Generative Pre-trained Transformers)

•

작동 방식:

◦

입력 텍스트에서 다음 단어를 생성.

◦

예: "This is an example of how LLM..." → "works" 예측.

◦

특징:

▪

좌 → 우(left-to-right) 순서로 단어 생성.

▪

응용 분야: 텍스트 생성, 질문 응답, 요약 등.

BERT와 GPT의 차이점

•

BERT:

◦

입력 텍스트의 모든 방향에서 문맥 이해.

◦

문장에서 임의의 단어를 예측.

◦

Encoder만 사용.

•

GPT:

◦

좌 → 우 방향으로 다음 단어를 생성.

◦

Decoder만 사용.

4. Transformer와 LLM의 차이점

Transformer ≠ LLM

•

Transformer는 LLM뿐만 아니라 컴퓨터 비전(CV)에도 사용 가능.

◦

예: Vision Transformer(ViT)를 활용한 이미지 분류, 암 진단, 도로 포트홀 탐지.

LLM ≠ Transformer

•

LLM은 Transformer 외에도 RNN, LSTM, CNN 기반으로 설계 가능.

◦

RNN(순환 신경망): 피드백 루프를 통해 과거 데이터를 활용.

◦

LSTM(장단기 메모리 네트워크): 단기 기억과 장기 기억을 병합하여 학습.

◦

Transformer 도입 전, RNN과 LSTM도 텍스트 생성 및 분석에 사용됨.

오늘의 주요 학습 내용

Transformer 아키텍처는 현대 LLM의 핵심.

"Attention is All You Need" 논문은 번역 작업을 위해 Transformer를 제안.

Transformer의 8단계: 입력 텍스트 → 토큰화 → 임베딩 → 디코딩 → 출력.

Self-Attention 메커니즘은 문맥을 이해하고, 단어 간 중요도를 계산.

BERT와 GPT의 차이점:

•

BERT는 양방향 학습, GPT는 좌 → 우 단어 예측.

Transformer와 LLM은 같은 개념이 아니며, 서로 다른 응용 가능.