LoRA란
Low-Rank Adaptation. 원본 모델의 가중치는 동결하고, 작은 추가 가중치만 학습합니다. 메모리 사용량을 90% 이상 줄입니다.
QLoRA
4비트 양자화 + LoRA를 결합. 70B 모델도 단일 GPU에서 파인튜닝 가능합니다.
from peft import LoraConfig, get_peft_model
config = LoraConfig(
r=16,
lora_alpha=32,
target_modules=["q_proj", "v_proj"],
lora_dropout=0.05,
)
model = get_peft_model(base_model, config)
댓글 0