- 3일전 공개한 Autoresearch 에이전트 가 depth=12 모델 기준으로 약 2일간 자율적으로 약 700개의 변경을 시도해, 검증 손실(validation loss)를 개선하는 약 20개의 유효한 변경사항을 발견
- 발견된 변경사항들은 모두 가산적(additive) 이며 더 큰 depth=24 모델에도 그대로 전이되어, 리더보드의 "Time to GPT-2"가 2.02시간에서 1.80시간으로 약 11% 단축
- 기존에는 아이디어 도출 → 구현 → 검증 손실 확인 → 논문 참고 등의 반복적 수동 최적화 과정을 20년간 수행해 옴
- 이번에는 에이전트가 실험 결과의 시퀀스를 분석하고 이를 기반으로 다음 실험을 자율 계획하는 전체 워크플로를 엔드투엔드로 수행
- 현재 "round 1" 결과를 커밋 완료했고, "round 2" 를 시작할 예정이며, 병렬 처리를 위해 다수 에이전트 간 협업(collaboration) 방식도 병행 연구 중 (AgentHub)
- 아직 획기적인 연구(ground-breaking research) 수준은 아니지만, 수동 튜닝으로 놓친 실제 개선사항들이 누적되어 실질적 성능 향상을 달성
- 대규모 적용 시 단일 train.py 튜닝보다 훨씬 복잡하지만, 본질적으로는 엔지니어링 문제이므로 해결 가능
-
에이전트 스웜(agent swarm) 으로 소규모 모델부터 튜닝하고, 유망한 아이디어를 점점 큰 스케일로 승격시키는 방식으로, 모든 LLM 프론티어 랩이 채택할 수밖에 없는 흐름일 것
- 효율적으로 평가 가능한(또는 프록시 메트릭이 있는) 모든 메트릭이 이 자동 최적화의 대상이 될 수 있음