-
이번 주에 무슨 일이 일어나고 있는지 궁금함. 최근 이틀 동안 머신러닝에서 흥미로운 돌파구를 여러 번 목격함
- Google 연구팀이 디지털 논리 게이트를 매개로 NNs와 CLAs를 결합할 수 있다는 것을 발견함. 이를 통해 많은 비선형 문제를 간단하고 효율적인 디지털 회로로 줄일 수 있음
- 신경망과 논리/지능 관련 새로운 발견들이 계속 나오고 있으며, 지능의 원리를 이해하는 데 얼마나 가까워졌는지에 대한 상상이 계속됨
-
유명한 수론 수학자 Hendrik Lenstra의 인용문이 떠오름
- "해결할 수 없는 문제마다 해결할 수 없는 더 간단한 문제가 있다"는 말이 있음
-
그들의 테스트 시간 강화 학습 접근법이 약간 의심스러움
- TTRL은 언어 모델이 테스트 케이스의 더 간단한 버전을 생성하도록 요청함으로써 작동함. 간단한 문제를 얻으면, 그 문제에 대해 강화 학습을 수행하여 원래 문제에 대한 모델 성능을 강화하려고 함
- 문제는 간단한 문제를 검증하기 위해 수치 적분기를 사용한다는 것임. 거의 간단하지 않은 문제가 생성되고, 모델이 실제 테스트 케이스에 대해 훈련할 수 있는 시나리오를 상상할 수 있음. 이는 테스트 세트에서 훈련하는 것과 같음
- 나머지 논문은 괜찮음
-
LADDER의 수학적 적분 주제에서의 효과를 입증함. Llama 3.2 3B의 정확도를 1%에서 82%로 향상시킴
- 이 방법이 작동한다는 것 자체가 흥미로움. 수학과 잘 작동한다는 점이 특히 흥미로움
- 이 논문은 현재 훈련과 추론의 경계를 흐리는 움직임의 일부임. 그들의 방법 중 일부는 답을 모르는 질문을 더 간단한 질문으로 분해하고, 수치 '체커'를 사용하여 GRPO를 수행하는 것임. 이 강화된 모델은 더 많은 질문에 답할 수 있음
- 인간도 이런 방식으로 많이 생각한다고 생각함. 어떤 것을 곰곰이 생각하고, 머릿속에서 돌리고, 비유하는 등. 테스트 시간 훈련을 추가하는 것은 고정된 추론에 대한 컨텍스트에 토큰을 추가하는 것보다 더 많은 생각을 할 수 있는 방법임
- DeepSeek과 o1/o3가 추론 시간 토큰 생성 및 평가로 용량을 늘릴 수 있음을 보여주듯이, 추론 시간 자동화된 미세 조정으로도 용량을 늘릴 수 있을 것 같음
- 이러한 기술이 확고해지면 이에 대해 새로운 방식으로 이야기하고 생각할 수 있기를 바람. 이들은 모두 어떤 수준에서 동일한 기본 프로세스의 일부임
- 어쨌든 매우 멋짐
-
Frank Herbert는 이를 알고 있었음. 이는 Dune에서 묘사된 멘타츠의 재귀적 자기 검사 구현임
-
테스트 시간 훈련/강화 학습은 미래의 수학 AI에 적합한 접근법임. 이는 주어진 문제에 대해 엄청난 양의 컴퓨팅을 사용하는 몇 안 되는 방법 중 하나일 가능성이 높음. Alphaproof가 이미 이를 수행했지만, 다시 수행되어 좋은 결과를 얻는 것이 좋음
-
주제에서 벗어나지만, 그들의 사이트가 아름다움. 금광을 찾은 것 같은 느낌임
-
어떤 이름들은 너무 매력적임
-
논문 끝부분에서 2025 MIT Integration Bee 예선 시험의 두 문제를 언급함. 시스템이 계속해서 잘못된 답을 냈다고 함
- 그들은 이 질문들이 시험에서 가장 복잡한 질문 중 하나라고 말하지만, 첫 번째 질문은 단지
- ∫ ∛(x · ∜(x · ∜(x · √(x · √(x · ⋯ ))))) dx를 계산하는 것임
- 이는 1/3 + 1/(34) + 1/(34*5) + ...를 계산하는 것임. 매우 고급 수학은 아님