AI Paper Research

사전학습된 가중치를 동결하고 저랭크 행렬 쌍(A, B)만 학습하여, 추론 지연 없이 파라미터 효율적 미세조정을 가능하게 한 논문.

배경

GPT-3 등 대규모 언어모델의 전체 파라미터 미세조정은 엄청난 GPU 메모리와 저장 공간을 요구한다. 태스크마다 전체 모델 복사본을 유지해야 하는 문제도 있었다. 어댑터 모듈 등 기존 방법은 추론 시 추가 지연을 유발하는 단점이 있었다.

핵심 아이디어

대규모 모델의 미세조정 시 가중치 변화(ΔW)가 실제로 저랭크(low-rank) 구조를 가진다는 가설에 기반한다. 원래 가중치 W를 동결하고, ΔW = BA 형태의 저랭크 분해를 학습한다(B ∈ R^{d×r}, A ∈ R^{r×k}, r ≪ min(d,k)). 학습할 파라미터가 원래의 0.01% 수준으로 줄어들며, 추론 시 BA를 W에 병합(merge)하면 추가 연산이 전혀 없다. 어텐션 모듈의 쿼리와 밸류 프로젝션에 적용하는 것이 가장 효과적이다.

방법론

트랜스포머의 각 어텐션 층에서 W_q, W_v에 저랭크 행렬 A(가우시안 초기화), B(영 초기화)를 추가한다. 순전파 시 h = Wx + BAx로 계산하며, 역전파에서 A와 B만 업데이트한다. GPT-3 175B에 r=4~8로 적용하여 검증했다.

주요 결과

GPT-3 175B에서 학습 파라미터 0.01%(약 4.7M)만으로 전체 미세조정과 동등하거나 더 나은 성능을 달성했다. 학습 시 GPU 메모리를 3배 절감하고, 체크포인트 크기를 10000배 이상 줄였다. 추론 지연은 전혀 증가하지 않았다.

임팩트

대규모 언어모델의 미세조정을 민주화한 핵심 기술이다. 이후 QLoRA, LoRA+, DoRA 등 수많은 변형이 등장했으며, Stable Diffusion, LLaMA 등 다양한 모델의 커스터마이징에 사실상 표준으로 자리잡았다. 개인 연구자와 소규모 팀이 대형 모델을 활용할 수 있게 한 실용적 기여가 크다.

AI Paper Research

LoRA: Low-Rank Adaptation of Large Language Models

배경

핵심 아이디어

방법론

주요 결과

임팩트

관련 Foundation 논문

관련 논문