LLM 구축의 두 가지 주요 단계
LLM 구축에는 두 가지 주요 단계가 있습니다:
1.
Pre-training(사전 학습)
2.
Fine-tuning(미세 조정)
이 강의에서는 이 두 단계를 자세히 살펴보겠습니다.
1. Pre-training (사전 학습)
Pre-training이란?
사전 학습은 대규모 및 다양한 데이터 세트를 사용하여 모델을 학습시키는 과정입니다.
예: GPT-3는 1,750억 개의 파라미터와 약 3000억 개의 토큰(단어)에 해당하는 방대한 데이터를 사용하여 학습되었습니다.
데이터 출처
GPT-3의 학습 데이터 출처는 다음과 같습니다:
•
Common Crawl: 인터넷 데이터를 수집한 공개 데이터 세트 (4100억 단어)
•
WebText2: Reddit, 블로그, Stack Overflow 등에서 추출된 데이터 (200억 단어)
•
책: 약 670억 단어
•
Wikipedia: 약 30억 단어
학습 목표
•
주어진 텍스트에서 다음 단어를 예측하는 작업으로 초기 학습.예:"The lion is in the __" → "forest"
•
놀라운 점: 단순히 다음 단어를 예측하도록 학습했음에도, 모델은 번역, 요약, 감정 분석 등 다양한 작업을 수행할 수 있음.
2. Fine-tuning (미세 조정)
Fine-tuning이 필요한 이유
•
Pre-trained 모델은 일반적인 데이터로 학습되었기 때문에 특정 도메인이나 애플리케이션에 적합하지 않을 수 있음.
•
Fine-tuning은 특정 데이터 세트로 모델을 재학습하여 특정 작업이나 도메인에 맞게 최적화함.
Fine-tuning 사례
1.
SK Telecom
•
한국어 텔레콤 관련 대화를 위한 챗봇 개발.
•
GPT-4를 바로 사용할 경우, 한국어 텔레콤 대화에 최적화되지 않음 → Fine-tuning 필요.
•
결과: 대화 요약 품질 35% 개선, 의도 인식 정확도 33% 향상.
2.
Harvey (법률 AI 도구)
•
변호사를 위한 법률 사례 데이터로 미세 조정.
•
결과: 법률 작업에 필요한 전문 지식 제공 가능.
3.
JP Morgan Chase
•
자체 AI LLM Suite 개발 → 은행의 내부 데이터에 맞춘 Fine-tuning으로 연구 분석 대체 가능.
Fine-tuning의 주요 특징
•
Fine-tuning은 **레이블이 지정된 데이터(labelled data)**를 사용하여 수행됨.
•
특정 작업(예: 이메일 분류, 번역, 요약 등)에 맞는 맞춤형 모델 생성.
LLM 구축 단계 요약
LLM 구축 과정은 크게 3단계로 나눌 수 있습니다:
1.
데이터 수집
•
인터넷 텍스트, 책, 연구 논문 등 방대한 데이터를 사용.
2.
Pre-training
•
레이블이 없는 데이터로 사전 학습.
•
GPT-3의 경우 학습 비용: 약 460만 달러.
3.
Fine-tuning
•
레이블이 지정된 데이터로 추가 학습하여 특정 작업에 최적화.
핵심 정리
1.
Pre-training은 대규모 데이터 세트에서 일반적인 능력을 학습.
2.
Fine-tuning은 특정 도메인이나 작업에 맞게 모델을 미세 조정.
3.
Fine-tuning은 대부분 산업 및 기업 애플리케이션에서 필요.
4.
Pre-trained 모델은 "Foundational Model"이라고도 불림.
#AI #GENAI #LLM