사다리: 재귀적 문제 분해를 통한 자기 개선 LLMs

1 week ago 4

Hacker News 의견
  • 이번 주에 무슨 일이 일어나고 있는지 궁금함. 최근 이틀 동안 머신러닝에서 흥미로운 돌파구를 여러 번 목격함

    • Google 연구팀이 디지털 논리 게이트를 매개로 NNs와 CLAs를 결합할 수 있다는 것을 발견함. 이를 통해 많은 비선형 문제를 간단하고 효율적인 디지털 회로로 줄일 수 있음
    • 신경망과 논리/지능 관련 새로운 발견들이 계속 나오고 있으며, 지능의 원리를 이해하는 데 얼마나 가까워졌는지에 대한 상상이 계속됨
  • 유명한 수론 수학자 Hendrik Lenstra의 인용문이 떠오름

    • "해결할 수 없는 문제마다 해결할 수 없는 더 간단한 문제가 있다"는 말이 있음
  • 그들의 테스트 시간 강화 학습 접근법이 약간 의심스러움

    • TTRL은 언어 모델이 테스트 케이스의 더 간단한 버전을 생성하도록 요청함으로써 작동함. 간단한 문제를 얻으면, 그 문제에 대해 강화 학습을 수행하여 원래 문제에 대한 모델 성능을 강화하려고 함
    • 문제는 간단한 문제를 검증하기 위해 수치 적분기를 사용한다는 것임. 거의 간단하지 않은 문제가 생성되고, 모델이 실제 테스트 케이스에 대해 훈련할 수 있는 시나리오를 상상할 수 있음. 이는 테스트 세트에서 훈련하는 것과 같음
    • 나머지 논문은 괜찮음
  • LADDER의 수학적 적분 주제에서의 효과를 입증함. Llama 3.2 3B의 정확도를 1%에서 82%로 향상시킴

    • 이 방법이 작동한다는 것 자체가 흥미로움. 수학과 잘 작동한다는 점이 특히 흥미로움
    • 이 논문은 현재 훈련과 추론의 경계를 흐리는 움직임의 일부임. 그들의 방법 중 일부는 답을 모르는 질문을 더 간단한 질문으로 분해하고, 수치 '체커'를 사용하여 GRPO를 수행하는 것임. 이 강화된 모델은 더 많은 질문에 답할 수 있음
    • 인간도 이런 방식으로 많이 생각한다고 생각함. 어떤 것을 곰곰이 생각하고, 머릿속에서 돌리고, 비유하는 등. 테스트 시간 훈련을 추가하는 것은 고정된 추론에 대한 컨텍스트에 토큰을 추가하는 것보다 더 많은 생각을 할 수 있는 방법임
    • DeepSeek과 o1/o3가 추론 시간 토큰 생성 및 평가로 용량을 늘릴 수 있음을 보여주듯이, 추론 시간 자동화된 미세 조정으로도 용량을 늘릴 수 있을 것 같음
    • 이러한 기술이 확고해지면 이에 대해 새로운 방식으로 이야기하고 생각할 수 있기를 바람. 이들은 모두 어떤 수준에서 동일한 기본 프로세스의 일부임
    • 어쨌든 매우 멋짐
  • Frank Herbert는 이를 알고 있었음. 이는 Dune에서 묘사된 멘타츠의 재귀적 자기 검사 구현임

  • 테스트 시간 훈련/강화 학습은 미래의 수학 AI에 적합한 접근법임. 이는 주어진 문제에 대해 엄청난 양의 컴퓨팅을 사용하는 몇 안 되는 방법 중 하나일 가능성이 높음. Alphaproof가 이미 이를 수행했지만, 다시 수행되어 좋은 결과를 얻는 것이 좋음

  • 주제에서 벗어나지만, 그들의 사이트가 아름다움. 금광을 찾은 것 같은 느낌임

  • 어떤 이름들은 너무 매력적임

  • 논문 끝부분에서 2025 MIT Integration Bee 예선 시험의 두 문제를 언급함. 시스템이 계속해서 잘못된 답을 냈다고 함

    • 그들은 이 질문들이 시험에서 가장 복잡한 질문 중 하나라고 말하지만, 첫 번째 질문은 단지
    • ∫ ∛(x · ∜(x · ∜(x · √(x · √(x · ⋯ ))))) dx를 계산하는 것임
    • 이는 1/3 + 1/(34) + 1/(34*5) + ...를 계산하는 것임. 매우 고급 수학은 아님

Read Entire Article