자기 개선 추론자를 가능하게 하는 인지 행동

1 week ago 4

  • 인지적 행동이 자기 개선 추론자를 가능하게 하는 방법, 또는 매우 효과적인 STaRs의 네 가지 습관

  • 테스트 시 추론: 언어 모델이 복잡한 문제를 더 길고 신중하게 생각할 수 있게 하는 강력한 패러다임임. 강화 학습(RL)은 검증 가능한 작업에서 언어 모델의 자기 개선을 촉진할 수 있지만, 일부 모델은 상당한 성과를 보이는 반면 다른 모델은 빠르게 정체됨. 예를 들어, Qwen-2.5-3B는 동일한 RL 훈련 하에서 Llama-3.2-3B를 크게 능가함.

  • 내재적 속성: 효과적인 자기 개선을 가능하게 하는 내재적 속성에 대한 질문이 제기됨. 이를 조사하기 위해 검증, 백트래킹, 하위 목표 설정, 역방향 체인닝이라는 네 가지 주요 인지적 행동을 분석하는 프레임워크를 도입함. 이 행동들은 전문가 인간 문제 해결자와 성공적인 언어 모델이 사용하는 것임.

  • 실험 결과: Qwen은 자연스럽게 이러한 추론 행동을 보이는 반면, Llama는 초기에는 부족함. 제어된 행동 데이터셋을 사용한 체계적인 실험에서 이러한 추론 행동을 포함한 예시로 Llama를 준비시키면 RL 동안 상당한 개선을 이루어 Qwen의 성능과 일치하거나 능가함을 발견함.

  • 추론 행동의 중요성: 정답의 정확성보다는 추론 행동의 존재가 중요한 요소임. 올바른 추론 패턴을 포함한 잘못된 솔루션으로 준비된 모델이 올바른 솔루션으로 훈련된 모델과 유사한 성능을 달성함.

  • 계속된 사전 훈련: OpenWebMath 데이터를 사용하여 추론 행동을 증폭시키는 필터링을 통해 Llama 모델이 Qwen의 자기 개선 궤적을 따라갈 수 있게 함. 초기 추론 행동과 개선 능력 간의 근본적인 관계를 확립하여 일부 언어 모델이 추가 계산을 효과적으로 활용하는 이유를 설명함.

Read Entire Article