파인튜닝의 귀환에 대한 사례

2 weeks ago 8

파인튜닝 방식이 최근 Tinker 등 새로운 플랫폼의 등장을 계기로 다시 주목을 받음
LoRA와 같은 저비용 파인튜닝 기법이 확산되어 기존 전체 학습(Fine-Tuning)에 비해 경제성과 실용성이 크게 향상됨
오픈소스와 자가 관리형 LLM 배포가 늘어나며, 조직마다 맞춤형 모델 소유와 관리가 용이해짐
프롬프트 엔지니어링과 RAG로 충분한 성능을 얻는 시기가 있었으나, 기업이 요구하는 미세한 커스터마이징과 규정 준수를 위해 파인튜닝의 수요가 다시 증가함
최신 파인튜닝은 모듈화·서버리스 구조와 온라인 RL 등 연속적 학습으로 진화하며, 단순 기술 단계를 넘어 전략적 차별화 수단으로 자리잡음

Déjà Tune

이번 주 읽은 주요 내용은 파인튜닝에 집중됐음. OpenAI 전 CTO Mira Murati가 창업한 스타트업 Thinking Machines Labs는 6개월 만에 기업 가치 120억 달러를 달성했고, 파인튜닝 기반 플랫폼 Tinker를 발표함. Tinker는 대학 등과의 연구 협업의 기반으로 파인튜닝을 다시 부각하려는 시도를 보임.

이후 Hugging Face의 Clément Delangue는 자가 관리형·오픈소스 LLM 도입과 전용 하드웨어(NVIDIA DGX Spark 등) 기반 확산, 그리고 a16z에서 선보인 Personal AI Workstation 등 최근 LLM 배포 패러다임 변화 움직임을 언급함.

과거 대형 언어 모델 첫 등장 후 파인튜닝 붐이 있었지만, 곧 산업 현장에서 자취를 감추고 현재는 전체 AI 추론 작업량의 10% 미만 비중만 차지하게 됐음.

이런 파인튜닝이 왜 빠르게 소외됐고, 다시 돌아와야 할 이유는 무엇이며 과거와 다른 점은 무엇일지 의문이 커짐.

Attention, Please

Transformer 혁신 전 NLP는 RNN과 LSTM 기반 아키텍처가 중심이었고, 모든 어플리케이션은 개별 데이터로 새로 학습해야 했음.

2017년 Google 논문 ‘Attention Is All You Need’가 Transformer 구조를 발표하며, 순환 및 합성곱 대신 self-attention만을 사용함. 같은 해 ULMFiT는 사전학습된 언어 모델을 파인튜닝이라는 방식으로 다양한 작업에 쉽게 전이시킬 수 있음을 입증했고, 이 구조가 실질적으로 활용되기 시작함.

BERT와 GPT-1 등은 Encoder/Decoder 구조에 self-attention을 활용하면서, 연구자들이 처음부터 새 모델을 만들 필요 없이 사전학습 모델에 파인튜닝만 수행해도 뛰어난 결과를 낼 수 있게 문화가 전환됨.

하지만 초거대 LLM들이 등장하고, 수억~수십억 파라미터 규모까지 급속히 확대되면서 파인튜닝은 엄청난 비용의 작업이 됨. 이른바 Full Fine-Tuning(FFT) 은 모든 층·가중치 재학습이 필요해 정밀하나 운영 및 비용 부담이 심각해짐.

2021년 Microsoft Research가 발표한 LoRA(Low-Rank Adaptation) 는 원본 가중치를 고정한 채, 일부 계층에 작은 저랭크 행렬만 추가해 훈련함으로써 비용을 획기적으로 절감하면서도 기존 FFT와 유사 이상의 성능을 달성함. 이 방식은 Hugging Face의 PEFT 라이브러리를 통해 간단히 사용할 수 있게 됨.

Finding The Right Tune

파인튜닝은 단순한 패키지로 보이지만 실제로는 하이퍼파라미터 튜닝 등 복잡한 최적화 과정이 핵심임. 랭크, 학습률, 알파 비율 등 하이퍼파라미터의 균형이 중요하고, 과적합이나 catastrophic forgetting(기존 지식 소멸) 위험도 상존함.

모델 개선이 성공해도 평가 과정 역시 불확실성이 높아, 검증보다는 점술에 가까운 난이도를 보임.

한편, LLM 자체의 성능이 지속적으로 향상되고, 프롬프트 엔지니어링이나 RAG(Retrieval-Augmented Generation) 기법 등으로 파인튜닝 없이도 90% 이상의 결과를 쉽게 얻을 수 있어 운용 부담도 크게 낮아졌음.

Tuning Back In

그럼에도 최근 다시 파인튜닝이 각광받는 배경에는 여러 변화가 있음.

Together.ai 등 GPU-as-a-service 플랫폼의 등장으로 파인튜닝 환경 마련이 쉬워짐
신규 LLM은 점진적 개선 추세라 한 번 튜닝한 모델이 바로 무의미해지지 않고, 반복적 수정 부담이 줄어듦
Llama, Mistral, Falcon, Yi, Gemma 등 오픈 웨이트 LLM 확산으로 사용자 주도의 소유·관리와 벤더 락인 해소가 가능해짐
프롬프트만으로 성능 한계에 도달한 기업이 고유 용어, 톤, 규정 준수 등 맞춤형 모델을 요구하는 흐름 확대

이제 파인튜닝은 단순 유행이 아닌, 통제·차별화·지능 내재화의 전략적 도구로 부상 중임.

Tinker는 정리·화학·다중 에이전트 RL·AI 안전성 등 다양한 분야에서 파인튜닝 혁신 사례를 모색하고 있음. 특히 ‘** LoRA Without Regret**’에서는 파인튜닝 효율을 극대화할 방법론을 소개함.

Tinker의 LoRA 활용 팁

LoRA를 attention 계층뿐 아니라 모든 선형 모듈에 적용할 것 권장
LoRA 랭크(중요 하이퍼파라미터) 조정에 주목, 높은 학습률(최소 10배), 작은 배치 크기(관습과 반대) 설정 강조
보상 함수를 수학적/논리적 검증으로 명확히 정의 필요성 언급
Hugging Face TRL에서 실증 가능

하지만 Tinker의 더 중요한 기여는 파인튜닝 워크플로우와 알고리듬 커스터마이징을 위한 저수준 API를 제공, 연구자에게 세밀한 제어권을 제공함

The Best of Both Worlds

현대 파인튜닝 파이프라인은 5년 전과 달리 모듈화, 서버리스, 오케스트레이션 구조로 발전됨. 하나의 배포본에서 여러 LoRA 어댑터를 동시 운영하며, 요청마다 적합한 어댑터 조합을 선택해 추론하는 방식임.

Together.ai 등 일체형 플랫폼은 편리하지만, 정밀한 설정과 관찰 기능이 부족하거나 확장 시 비용 증가 문제가 있음.

Tinker는 완전 관리형 스택의 편의성과 연구자 지향 세분화된 제어를 결합함. 덕분에 사용자는 기초 학습 루틴과 고유 알고리듬을 오케스트레이션하면서 반복적 운영 부담은 최소화할 수 있음. 현재는 연구자 대상 공개에 한정되어 타 플랫폼에도 영향을 줄 것으로 기대됨.

평가와 지속적 학습의 미래

AI 모델 평가는 여전히 난제임. 인적 평가의 불안정, 벤치마크의 빠른 노후화(데이터 오염) 등으로 자동화된 G-Eval, Chatbot Arena 등도 편향과 불안정성 문제를 가짐.

Tinker 발표 후에는 온라인 강화학습 기반 평가·튜닝 지원이 제안됨. 즉, 사용자가 현행 모델의 응답을 평가해 실시간으로 파인튜닝을 반복할 수 있음. 기존의 지도학습 기반 응답 모방이 아니라, 온라인 RL은 자가 검증을 통해 점진적으로 모델을 개선하는 방식임.