사다리: 재귀적 문제 분해를 통한 자기 개선 LLMs

1 week ago 4

Hacker News 의견

이번 주에 무슨 일이 일어나고 있는지 궁금함. 최근 이틀 동안 머신러닝에서 흥미로운 돌파구를 여러 번 목격함
- Google 연구팀이 디지털 논리 게이트를 매개로 NNs와 CLAs를 결합할 수 있다는 것을 발견함. 이를 통해 많은 비선형 문제를 간단하고 효율적인 디지털 회로로 줄일 수 있음
- 신경망과 논리/지능 관련 새로운 발견들이 계속 나오고 있으며, 지능의 원리를 이해하는 데 얼마나 가까워졌는지에 대한 상상이 계속됨
유명한 수론 수학자 Hendrik Lenstra의 인용문이 떠오름
- "해결할 수 없는 문제마다 해결할 수 없는 더 간단한 문제가 있다"는 말이 있음
그들의 테스트 시간 강화 학습 접근법이 약간 의심스러움
- TTRL은 언어 모델이 테스트 케이스의 더 간단한 버전을 생성하도록 요청함으로써 작동함. 간단한 문제를 얻으면, 그 문제에 대해 강화 학습을 수행하여 원래 문제에 대한 모델 성능을 강화하려고 함
- 문제는 간단한 문제를 검증하기 위해 수치 적분기를 사용한다는 것임. 거의 간단하지 않은 문제가 생성되고, 모델이 실제 테스트 케이스에 대해 훈련할 수 있는 시나리오를 상상할 수 있음. 이는 테스트 세트에서 훈련하는 것과 같음
- 나머지 논문은 괜찮음
LADDER의 수학적 적분 주제에서의 효과를 입증함. Llama 3.2 3B의 정확도를 1%에서 82%로 향상시킴
- 이 방법이 작동한다는 것 자체가 흥미로움. 수학과 잘 작동한다는 점이 특히 흥미로움
- 이 논문은 현재 훈련과 추론의 경계를 흐리는 움직임의 일부임. 그들의 방법 중 일부는 답을 모르는 질문을 더 간단한 질문으로 분해하고, 수치 '체커'를 사용하여 GRPO를 수행하는 것임. 이 강화된 모델은 더 많은 질문에 답할 수 있음
- 인간도 이런 방식으로 많이 생각한다고 생각함. 어떤 것을 곰곰이 생각하고, 머릿속에서 돌리고, 비유하는 등. 테스트 시간 훈련을 추가하는 것은 고정된 추론에 대한 컨텍스트에 토큰을 추가하는 것보다 더 많은 생각을 할 수 있는 방법임
- DeepSeek과 o1/o3가 추론 시간 토큰 생성 및 평가로 용량을 늘릴 수 있음을 보여주듯이, 추론 시간 자동화된 미세 조정으로도 용량을 늘릴 수 있을 것 같음
- 이러한 기술이 확고해지면 이에 대해 새로운 방식으로 이야기하고 생각할 수 있기를 바람. 이들은 모두 어떤 수준에서 동일한 기본 프로세스의 일부임
- 어쨌든 매우 멋짐
Frank Herbert는 이를 알고 있었음. 이는 Dune에서 묘사된 멘타츠의 재귀적 자기 검사 구현임
테스트 시간 훈련/강화 학습은 미래의 수학 AI에 적합한 접근법임. 이는 주어진 문제에 대해 엄청난 양의 컴퓨팅을 사용하는 몇 안 되는 방법 중 하나일 가능성이 높음. Alphaproof가 이미 이를 수행했지만, 다시 수행되어 좋은 결과를 얻는 것이 좋음
주제에서 벗어나지만, 그들의 사이트가 아름다움. 금광을 찾은 것 같은 느낌임
어떤 이름들은 너무 매력적임
논문 끝부분에서 2025 MIT Integration Bee 예선 시험의 두 문제를 언급함. 시스템이 계속해서 잘못된 답을 냈다고 함
- 그들은 이 질문들이 시험에서 가장 복잡한 질문 중 하나라고 말하지만, 첫 번째 질문은 단지
- ∫ ∛(x · ∜(x · ∜(x · √(x · √(x · ⋯ ))))) dx를 계산하는 것임
- 이는 1/3 + 1/(34) + 1/(34*5) + ...를 계산하는 것임. 매우 고급 수학은 아님

Read Entire Article

사다리: 재귀적 문제 분해를 통한 자기 개선 LLMs

Hacker News 의견

Related

애플, 곧 안드로이드 사용자와의 암호화된 RCS 메시징 지원 예정

브라이어: 피어 투 피어 암호화 메시징 시스템

Firefox 포크 버전들 살펴보기

Katana - 일반 키보드에서 QMK 같은 기능 사용하기

xlskubectl - 스프레드시트에서 Kubernetes 클러스터 제어하기

메타, 전 직원의 Facebook 관련 책 홍보 저지 시도

WebUSB 미지원 문제 해결을 위한 Firefox 해킹 방법

스팀 네트워크 시스템

Tips

게임 정보

취업 정보

온라인 툴

유용한 정보

유튜브

Trending

Popular

New WalkMe Research Reveals Major Gap Between AI Ambitions a...

Optimizing SAP BW/4HANA Operations: Streamlined Monitoring a...

7 Tips for SAP C_BCBAI_2502 Exam Preparation

Driving Efficiency and Compliance: Capgemini’s Journey with ...

Business AI with SAP

Overview: Unleash Your Full Potential | SAP Business Unleash...

SAP Releases Integrated Report 2024 and Files Annual Report ...

Automate Start/Stop of SAP NetWeaver ABAP applications based...

Accelerating AI-Driven Business Transformation with SAP Pref...

SAP Proposes Dividend of €2.35 per Share