[2025/09/08 ~ 14] 이번 주에 살펴볼 만한 AI/ML 논문 모음 1️⃣ 언어 모델의 환각 현상: 최근 연구에서는 대규모 언어 모델이 불확실할 때 추측을 통해 그럴듯하지만 부정확한 진술을 생성하는 '환각' 현상을 보인다는 점이 강조되고 있습니다. 이는 학습 및 평가 절차에서 불확실성을 인정하기보다는 추측을 보상하는 경향이 있기 때문이며, 이러한 환각을 해결하기 위해 기존 벤치마크의 점수 체계를 수정해야 한다고 주장합니다. 2️⃣ 의미론적 구조의 이해: 대규모 언어 모델의 임베딩 행렬에서 의미론적 연관성이 어떻게 구조화되어 있는지를 분석한 연구가 증가하고 있습니다. 이러한 연구는 인간의 의미 평가와 유사한 저차원 구조를 발견하고, 단어의 의미 방향에 따른 투영이 인간 평가와 높은 상관관계를 보인다는 점을 강조합니다. 이는 언어 모델이 인간 언어와 유사한 방식으로 의미적 정보를 처리하고 있음을 시사합니다. 3️⃣ 강화 학습을 통한 고급 추론 능력 향상: 강화 학습(RL)을 활용하여 대규모 언어 모델의 복잡한 추론 능력을 향상시키려는 연구가 활발히 진행되고 있습니다. 특히, RL 알고리즘의 효율성을 높이기 위해 깊이와 폭을 조절하는 방법이 제안되고 있으며, 이는 모델이 고급 전략적 계획을 탐색하고 마스터하는 데 중요한 역할을 한다고 밝혀졌습니다. 이러한 접근은 RLVR(검증 가능한 보상 강화 학습)과 같은 새로운 패러다임을 통해 이루어지고 있습니다. 대규모 언어 모델은 불확실한 상황에서 정답을 추측하는 경향이 있으며, 이로 인해 그럴듯하지만 잘못된 정보를 생성하는 "환각" 현상이 발생한다. 이러한 환각은 최신 모델에서도 여전히 문제로 남아 있으며, 신뢰성을 저해하는 주요 원인으로 작용한다. 본 연구는 언어 모델이 환각을 일으키는 이유를 학습 및 평가 절차에서 불확실성을 인정하기보다는 추측을 보상하는 방식에서 찾는다. 특히, 환각은 이진 분류에서의 오류로부터 기인하며, 잘못된 진술이 사실과 구별되지 않을 경우 자연스러운 통계적 압력으로 발생한다. 사전 학습 단계에서 언어 모델은 대규모 텍스트 데이터로부터 언어의 분포를 학습하며, 이 과정에서 오류가 발생할 수 있다. 이러한 오류는 불확실한 응답을 처벌하는 평가 방식에 의해 지속적으로 강화된다. 연구진은 언어 모델이 시험에서 좋은 성적을 내기 위해 불확실성을 회피하고 추측하는 경향이 있음을 지적하며, 이러한 경향이 환각을 지속시키는 원인이라고 주장한다. OpenAI가 공개한 본 논문은 환각의 통계적 원인을 규명하고, 사전 학습에서의 기원과 사후 학습에서의 지속성을 분석한다. 또한, 기존 평가 방식의 수정이 환각 현상을 완화할 수 있는 효과적인 방법이 될 수 있음을 제안한다. 이러한 접근은 언어 모델의 신뢰성을 높이고, 더 나아가 신뢰할 수 있는 인공지능 시스템으로 나아가는 길을 제시한다. 연구의 결과는 언어 모델의 환각 현상을 이해하고 개선하기 위한 중요한 기초 자료로 활용될 수 있다. 학생들이 어려운 시험 문제에 직면했을 때처럼, 대규모 언어 모델은 불확실할 때 추측을 하여 불확실성을 인정하는 대신 그럴듯하지만 잘못된 진술을 생성합니다. 이러한 "환각"은 최신 시스템에서도 지속되며 신뢰를 저해합니다. 우리는 언어 모델이 환각을 일으키는 이유가 학습 및 평가 절차가 불확실성을 인정하기보다는 추측을 보상하기 때문이라고 주장하며, 현대 학습 파이프라인에서 환각의 통계적 원인을 분석합니다. 환각은 신비로운 것이 아닙니다. 이들은 단순히 이진 분류에서 발생하는 오류로부터 기인합니다. 잘못된 진술이 사실과 구별될 수 없다면, 사전 학습된 언어 모델에서 환각은 자연적인 통계적 압력에 의해 발생할 것입니다. 우리는 또한 환각이 대부분의 평가가 채점되는 방식 때문에 지속된다고 주장합니다. 언어 모델은 좋은 시험 응시자로 최적화되어 있으며, 불확실할 때 추측하는 것이 시험 성과를 향상시킵니다. 이러한 불확실한 응답을 처벌하는 "전염병"은 기존 벤치마크의 채점 방식을 수정함으로써 해결할 수 있습니다. 이러한 벤치마크는 잘못 정렬되어 있지만 리더보드를 지배하고 있습니다. 추가적인 환각 평가를 도입하기보다는 이러한 변화를 통해 분야가 더 신뢰할 수 있는 AI 시스템으로 나아갈 수 있을 것입니다. Like students facing hard exam questions, large language models sometimes guess when uncertain, producing plausible yet incorrect statements instead of admitting uncertainty. Such "hallucinations" persist even in state-of-the-art systems and undermine trust. We argue that language models hallucinate because the training and evaluation procedures reward guessing over acknowledging uncertainty, and we analyze the statistical causes of hallucinations in the modern training pipeline. Hallucinations need not be mysterious -- they originate simply as errors in binary classification. If incorrect statements cannot be distinguished from facts, then hallucinations in pretrained language models will arise through natural statistical pressures. We then argue that hallucinations persist due to the way most evaluations are graded -- language models are optimized to be good test-takers, and guessing when uncertain improves test performance. This "epidemic" of penalizing uncertain responses can only be addressed through a socio-technical mitigation: modifying the scoring of existing benchmarks that are misaligned but dominate leaderboards, rather than introducing additional hallucination evaluations. This change may steer the field toward more trustworthy AI systems. https://arxiv.org/abs/2509.04664 대규모 언어 모델(LLMs)의 임베딩 구조는 인간의 언어 인지와 유사한 방식으로 의미적 정보를 표현하고 있다는 점에서 주목할 만하다. 본 연구는 심리학적 발견을 바탕으로 LLM의 임베딩 행렬에서 단어 간의 의미적 연관성을 분석하고, 이를 통해 인간의 단어 평가와 LLM의 내부 표현 간의 상관관계를 조사하였다. 연구 결과, LLM의 임베딩에서 단어의 프로젝션은 세 가지 주요 차원인 평가(좋음 vs. 나쁨), 세기(강함 vs. 약함), 활동성(능동 vs. 수동)으로 축소될 수 있음을 발견하였다. 이 연구는 360개의 단어에 대한 설문조사를 통해 수집된 데이터와 LLM의 임베딩을 비교하여, 인간의 의미적 평가와 LLM의 임베딩 간의 상관관계를 정량적으로 분석하였다. 특히, 단어의 의미적 특성 방향을 추출하고, 이를 기반으로 개입을 통해 오프타겟 효과를 측정함으로써, LLM의 특성이 서로 얽혀 있다는 점을 강조하였다. 이러한 발견은 LLM의 임베딩이 인간 언어의 복잡성을 반영하고 있으며, 의미적 정보가 상대적으로 저차원적이라는 것을 시사한다. 또한, 연구는 LLM의 내부 작동을 이해하는 데 있어 개별 특성 간의 관계를 측정하는 것이 중요하다는 점을 강조하며, 이는 AI 안전성 및 기능적 조정에 긍정적인 영향을 미칠 수 있다. 이러한 접근은 LLM의 특성 조정(feature steering) 과정에서 발생할 수 있는 의도하지 않은 결과를 피하는 데에도 기여할 수 있다. 본 연구는 LLM의 의미적 구조를 이해하고, 이를 통해 모델의 동작을 보다 명확히 파악하는 데 중요한 기여를 하고 있다. 심리학 연구는 다양한 의미적 척도에서 단어에 대한 인간의 평가가 상대적으로 적은 정보 손실로 저차원 형태로 축소될 수 있음을 일관되게 발견하고 있습니다. 우리는 대규모 언어 모델(LLM)의 임베딩 행렬에 인코딩된 의미적 연관성이 유사한 구조를 나타낸다는 것을 발견했습니다. 우리는 반의어 쌍(예: 친절 - 잔인)으로 정의된 의미적 방향에 대한 단어의 투영이 인간의 평가와 높은 상관관계를 가지며, 이러한 투영이 LLM 임베딩 내에서 3차원 부분공간으로 효과적으로 축소된다는 것을 보여줍니다. 이는 인간 설문 응답에서 유도된 패턴과 밀접하게 유사합니다. 또한, 우리는 한 의미적 방향을 따라 토큰을 이동시키는 것이 기하학적으로 정렬된 특징에 대해 코사인 유사도에 비례하는 비목표 효과를 유발한다는 것을 발견했습니다. 이러한 발견은 LLM 내의 의미적 특징이 인간 언어에서 상호 연결되는 방식과 유사하게 얽혀 있음을 시사하며, 겉보기에는 복잡해 보이는 많은 의미적 정보가 놀랍도록 저차원적임을 나타냅니다. 게다가, 이러한 의미적 구조를 고려하는 것은 특징을 조정할 때 의도하지 않은 결과를 피하는 데 필수적일 수 있습니다. Psychological research consistently finds that human ratings of words across diverse semantic scales can be reduced to a low-dimensional form with relatively little information loss. We find that the semantic associations encoded in the embedding matrices of large language models (LLMs) exhibit a similar structure. We show that the projections of words on semantic directions defined by antonym pairs (e.g. kind - cruel) correlate highly with human ratings, and further find that these projections effectively reduce to a 3-dimensional subspace within LLM embeddings, closely resembling the patterns derived from human survey responses. Moreover, we find that shifting tokens along one semantic direction causes off-target effects on geometrically aligned features proportional to their cosine similarity. These findings suggest that semantic features are entangled within LLMs similarly to how they are interconnected in human language, and a great deal of semantic information, despite its apparent complexity, is surprisingly low-dimensional. Furthermore, accounting for this semantic structure may prove essential for avoiding unintended consequences when steering features. https://arxiv.org/abs/2508.10003 rStar2-Agent는 140억 개의 Math-reasoning 모델로, 에이전틱 강화학습(agentic reinforcement learning)을 통해 최첨단 성능을 달성하도록 설계되었습니다. 이 모델은 기존의 Long Chain-of-Thought (Long-CoT) 접근 방식을 넘어, 복잡한 문제 해결 과정에서 고급 인지 행동을 보여줍니다. 특히, 파이썬 코딩 도구를 사용할 때 신중하게 사고하고, 코드 실행 피드백을 반영하여 자율적으로 중간 단계를 탐색하고 검증하는 능력을 갖추고 있습니다. 이러한 혁신은 세 가지 주요 요소를 통해 가능해졌습니다. 첫째, rStar2-Agent는 효율적인 RL 인프라를 통해 신뢰할 수 있는 파이썬 코드 환경을 구축하여 높은 처리량 실행을 지원합니다. 이 인프라는 제한된 GPU 자원에서도 효과적으로 훈련할 수 있도록 설계되어, 높은 롤아웃 비용을 완화합니다. 둘째, GRPO-RoC라는 에이전틱 RL 알고리즘은 Resample-on-Correct 롤아웃 전략을 활용하여 코딩 도구의 환경 소음을 해결하고, 모델이 코드 환경에서 더 효과적으로 추론할 수 있도록 합니다. 셋째, 비추론적 SFT(Supervised Fine-Tuning)로 시작하여 다단계 RL을 통해 진행되는 효율적인 에이전트 훈련 레시피는 최소한의 컴퓨팅 비용으로 고급 인지 능력을 제공합니다. 이러한 방법론을 통해 rStar2-Agent는 단 510 RL 단계 내에 사전 훈련된 140억 모델을 최첨단으로 끌어올리며, AIME24에서 평균 80.6%, AIME25에서 69.8%의 pass@1 점수를 달성했습니다. 이는 DeepSeek-R1(671B)보다 우수한 성능을 보여주며, 응답 시간도 크게 단축되었습니다. 또한, rStar2-Agent는 수학적 문제 해결을 넘어 정렬, 과학적 추론 및 에이전틱 도구 사용 작업에서도 강력한 일반화 능력을 발휘합니다. 이러한 성과는 에이전틱 RL 접근 방식이 복잡한 문제 해결에서의 인지적 행동을 강화하는 데 중요한 기여를 하고 있음을 보여줍니다. 우리는 최전선 성능을 달성하기 위해 에이전틱 강화 학습으로 학습된 14B 수학 추론 모델인 rStar2-Agent를 소개합니다. 현재의 긴 사고의 연쇄(CoT)를 넘어, 이 모델은 Python 코딩 도구를 사용하기 전에 신중하게 생각하고 코드 실행 피드백을 반영하여 복잡한 문제 해결 과정에서 중간 단계를 자율적으로 탐색, 검증 및 개선하는 고급 인지 행동을 보여줍니다. 이러한 능력은 에이전틱 RL이 대규모로 효과적이도록 만드는 세 가지 주요 혁신을 통해 가능해졌습니다: (i) 높은 처리량 실행을 지원하고 높은 롤아웃 비용을 완화하는 신뢰할 수 있는 Python 코드 환경을 갖춘 효율적인 RL 인프라로, 제한된 GPU 자원(64 MI300X GPU)에서 학습을 가능하게 합니다; (ii) 코딩 도구에서 발생하는 고유한 환경 노이즈를 해결하는 Resample-on-Correct 롤아웃 전략을 가진 에이전틱 RL 알고리즘인 GRPO-RoC로, 모델이 코드 환경에서 보다 효과적으로 추론할 수 있도록 합니다; (iii) 비추론 SFT에서 시작하여 다단계 RL을 통해 발전하는 효율적인 에이전트 학습 레시피로, 최소한의 계산 비용으로 고급 인지 능력을 제공합니다. 이러한 목적을 위해, rStar2-Agent는 사전 학습된 14B 모델을 단 510 RL 단계 내에 최첨단으로 끌어올리며, AIME24에서 평균 pass@1 점수 80.6%와 AIME25에서 69.8%를 달성하여 DeepSeek-R1(671B)을 훨씬 짧은 응답으로 초월합니다. 수학을 넘어, rStar2-Agent-14B는 정렬, 과학적 추론 및 에이전틱 도구 사용 작업에 대한 강력한 일반화 능력도 보여줍니다. 코드와 학습 레시피는 https://github.com/microsoft/rStar 에서 확인할 수 있습니다. We introduce rStar2-Agent, a 14B math reasoning model trained with agentic reinforcement learning to achieve frontier-level performance. Beyond current long CoT, the model demonstrates advanced cognitive behaviors, such as thinking carefully before using Python coding tools and reflecting on code execution feedback to autonomously explore, verify, and refine intermediate steps in complex problem-solving. This capability is enabled through three key innovations that makes agentic RL effective at scale: (i) an efficient RL infrastructure with a reliable Python code environment that supports high-throughput execution and mitigates the high rollout costs, enabling training on limited GPU resources (64 MI300X GPUs); (ii) GRPO-RoC, an agentic RL algorithm with a Resample-on-Correct rollout strategy that addresses the inherent environment noises from coding tools, allowing the model to reason more effectively in a code environment; (iii) An efficient agent training recipe that starts with non-reasoning SFT and progresses through multi-RL stages, yielding advanced cognitive abilities with minimal compute cost. To this end, rStar2-Agent boosts a pre-trained 14B model to state of the art in only 510 RL steps within one week, achieving average pass@1 scores of 80.6% on AIME24 and 69.8% on AIME25, surpassing DeepSeek-R1 (671B) with significantly shorter responses. Beyond mathematics, rStar2-Agent-14B also demonstrates strong generalization to alignment, scientific reasoning, and agentic tool-use tasks. Code and training recipes are available at https://github.com/microsoft/rStar. https://arxiv.org/abs/2508.20722 https://github.com/microsoft/rStar 단변량 가우시안 혼합 모델 신경망(Univariate Gaussian Mixture Model Neural Network, uGMM-NN)은 심층 신경망의 계산 단위에 확률적 추론을 직접 통합하는 혁신적인 아키텍처로, 각 뉴런이 자신의 활성화를 단변량 가우시안 혼합으로 매개변수화하는 방식을 채택하고 있다. 이 접근법은 전통적인 뉴런의 가중합과 고정된 비선형성의 한계를 극복하며, 학습 가능한 평균, 분산 및 혼합 계수를 통해 개별 뉴런에서 다중 모드와 불확실성을 효과적으로 포착할 수 있도록 한다. 이러한 설계는 모델이 복잡한 데이터 분포를 학습하는 데 필요한 유연성을 제공하며, 표준 피드포워드 네트워크의 확장성을 유지한다. uGMM-NN은 기존의 다층 퍼셉트론(Multilayer Perceptron, MLP)과 비교하여 경쟁력 있는 판별 성능을 달성할 수 있으며, 활성화에 대한 확률적 해석을 가능하게 한다. 이로 인해 모델은 단순한 결정 경계를 넘어, 데이터의 복잡한 구조를 이해하고 표현할 수 있는 능력을 갖추게 된다. 제안된 프레임워크는 현대 신경 아키텍처에 불확실성 인식 구성 요소를 통합할 수 있는 기반을 마련하며, 이는 판별 및 생성 모델링 모두에 새로운 연구 방향을 제시한다. uGMM-NN의 구조는 각 뉴런이 혼합 계수, 평균, 분산을 포함하여 활성화를 표현하는 형태로 구성되어 있으며, 이러한 요소들은 학습 과정에서 최적화된다. 학습 방법으로는 역전파 알고리즘을 사용하여 매개변수를 업데이트하며, 손실 함수는 각 뉴런의 활성화와 실제 레이블 간의 차이를 최소화하도록 설계된다. 이 과정에서 그래디언트 기반 최적화 기법이 적용되어 모델의 성능을 극대화한다. 실험 결과, uGMM-NN은 다양한 벤치마크 데이터셋에서 기존 MLP에 비해 더 높은 정확도를 기록하며, 불확실성을 효과적으로 처리하는 능력을 입증하였다. 이러한 결과는 uGMM-NN의 우수성을 증명하며, 향후 불확실성 인식 모델링의 방향성을 제시하는 중요한 기초 자료가 된다. 이 연구는 다양한 응용 분야에서의 활용 가능성을 탐구하며, uGMM-NN의 확장성과 다른 모델과의 통합 가능성에 대한 논의로 이어진다. 이 논문은 확률적 추론을 심층 네트워크의 계산 유닛에 직접 임베딩하는 새로운 신경 아키텍처인 단변량 가우시안 혼합 모델 신경망(Univariate Gaussian Mixture Model Neural Network, uGMM-NN)을 소개합니다. 전통적인 뉴런이 가중 합계에 고정된 비선형성을 적용하는 것과 달리, 각 uGMM-NN 노드는 학습 가능한 평균, 분산 및 혼합 계수를 가진 단변량 가우시안 혼합으로 활성화를 매개변수화합니다. 이러한 설계는 개별 뉴런 수준에서 다중 모드성과 불확실성을 포착하여 더 풍부한 표현을 가능하게 하며, 표준 피드포워드 네트워크의 확장성을 유지합니다. 우리는 uGMM-NN이 기존의 다층 퍼셉트론에 비해 경쟁력 있는 판별 성능을 달성할 수 있음을 보여주며, 활성화에 대한 확률적 해석도 제공합니다. 제안된 프레임워크는 현대 신경 아키텍처에 불확실성 인식 구성 요소를 통합하기 위한 기초를 제공하며, 판별 및 생성 모델링 모두에 대한 새로운 방향을 열어줍니다. This paper introduces the Univariate Gaussian Mixture Model Neural Network (uGMM-NN), a novel neural architecture that embeds probabilistic reasoning directly into the computational units of deep networks. Unlike traditional neurons, which apply weighted sums followed by fixed nonlinearities, each uGMM-NN node parameterizes its activations as a univariate Gaussian mixture, with learnable means, variances, and mixing coefficients. This design enables richer representations by capturing multimodality and uncertainty at the level of individual neurons, while retaining the scalability of standard feedforward networks. We demonstrate that uGMM-NN can achieve competitive discriminative performance compared to conventional multilayer perceptrons, while additionally offering a probabilistic interpretation of activations. The proposed framework provides a foundation for integrating uncertainty-aware components into modern neural architectures, opening new directions for both discriminative and generative modeling. https://arxiv.org/abs/2509.07569 대규모 언어 모델(LLMs)의 복잡한 추론 능력을 향상시키기 위한 연구는 최근 인공지능 분야에서 중요한 주제로 부각되고 있다. 본 연구에서는 강화학습(Reinforcement Learning, RL)이 LLM의 이러한 능력을 어떻게 증진시키는지를 탐구하며, 그 과정에서 나타나는 여러 현상들이 서로 연결되어 있음을 밝힌다. 특히, "아하 순간"과 같은 경험은 고수준의 전략적 사고와 밀접한 관련이 있으며, 이는 인간의 인지 과정에서 고수준 계획과 저수준 실행의 분리에 유사한 emergent reasoning hierarchy의 특징으로 해석된다. 연구는 두 단계의 역동성을 제시한다. 초기 단계에서는 모델이 절차적 정확성에 의해 제한되며 저수준 기술을 개선해야 한다. 이후 학습 병목 현상이 전환되어, 성능 향상은 고수준 전략 계획의 탐색과 숙달에 의해 주도된다. 이러한 통찰은 기존의 RL 알고리즘, 특히 GRPO(Generalized Reinforcement Policy Optimization)의 비효율성을 드러내며, 이 알고리즘이 최적화 압력을 무차별적으로 적용하여 학습 신호를 희석시킨다는 점을 강조한다. 이 문제를 해결하기 위해 저자들은 HIerarchy-Aware Credit Assignment (HICRA)라는 새로운 알고리즘을 제안한다. HICRA는 고영향 계획 토큰에 최적화 노력을 집중시킴으로써, 전략적 병목을 해결하는 데 중점을 둔다. 이 알고리즘은 강력한 기준선보다 뛰어난 성능을 보여주며, 고급 추론을 여는 열쇠로 작용할 수 있음을 입증한다. 또한, 저자들은 의미적 엔트로피를 전략적 탐색을 측정하는 우수한 지표로 제안하며, 이는 기존의 토큰 수준 엔트로피와 같은 오해의 소지가 있는 메트릭보다 더 나은 성능을 발휘한다. 이 연구는 LLM의 학습 및 추론 과정에서의 효율성을 높이는 새로운 접근법을 제시하며, HICRA 알고리즘을 통해 전략적 계획에 대한 집중적인 최적화가 필요함을 강조한다. 이러한 기여는 LLM의 복잡한 추론 능력을 더욱 발전시키고, 향후 연구에 중요한 기초가 될 것으로 기대된다. 강화학습(RL)은 대규모 언어 모델(LLM)의 복잡한 추론 능력을 향상시키는 데 매우 효과적임이 입증되었으나, 이러한 성공을 이끄는 근본적인 메커니즘은 여전히 불투명합니다. 우리의 분석은 "아하 순간", "길이 스케일링", 그리고 엔트로피 동역학과 같은 혼란스러운 현상이 단순한 개별 사건이 아니라 인간 인지에서 고차원 전략적 계획과 저차원 절차적 실행의 분리를 닮은 emergent reasoning hierarchy의 특징임을 드러냅니다. 우리는 매력적인 두 단계 동태를 발견했습니다: 처음에는 모델이 절차적 정확성에 의해 제약을 받으며 저차원 기술을 향상시켜야 합니다. 이후 학습 병목 현상이 결정적으로 전환되며, 성능 향상은 고차원 전략적 계획의 탐색과 숙달에 의해 주도됩니다. 이러한 통찰은 최적화 압력을 무차별적으로 적용하고 모든 토큰에 걸쳐 학습 신호를 희석하는 기존의 RL 알고리즘인 GRPO의 핵심 비효율성을 드러냅니다. 이를 해결하기 위해, 우리는 고영향 계획 토큰에 최적화 노력을 집중하는 HIerarchy-Aware Credit Assignment (HICRA) 알고리즘을 제안합니다. HICRA는 강력한 기준선보다 현저히 우수한 성능을 보여주며, 이 전략적 병목에 집중하는 것이 고급 추론을 여는 열쇠임을 입증합니다. 또한, 우리는 의미론적 엔트로피가 토큰 수준 엔트로피와 같은 오해의 소지가 있는 메트릭보다 전략적 탐색을 측정하는 데 더 우수한 나침반임을 검증합니다. Reinforcement Learning (RL) has proven highly effective at enhancing the complex reasoning abilities of Large Language Models (LLMs), yet underlying mechanisms driving this success remain largely opaque. Our analysis reveals that puzzling phenomena like aha moments", length-scaling'' and entropy dynamics are not disparate occurrences but hallmarks of an emergent reasoning hierarchy, akin to the separation of high-level strategic planning from low-level procedural execution in human cognition. We uncover a compelling two-phase dynamic: initially, a model is constrained by procedural correctness and must improve its low-level skills. The learning bottleneck then decisively shifts, with performance gains being driven by the exploration and mastery of high-level strategic planning. This insight exposes a core inefficiency in prevailing RL algorithms like GRPO, which apply optimization pressure agnostically and dilute the learning signal across all tokens. To address this, we propose HIerarchy-Aware Credit Assignment (HICRA), an algorithm that concentrates optimization efforts on high-impact planning tokens. HICRA significantly outperforms strong baselines, demonstrating that focusing on this strategic bottleneck is key to unlocking advanced reasoning. Furthermore, we validate semantic entropy as a superior compass for measuring strategic exploration over misleading metrics such as token-level entropy. https://arxiv.org/abs/2509.03646 OpenVision 2는 다중 모달 학습을 위한 생성 사전 학습 비주얼 인코더의 새로운 패밀리를 제안하며, 기존 OpenVision의 아키텍처와 손실 설계를 단순화하여 학습 효율성을 크게 향상시킵니다. 본 연구는 CapPa와 AIMv2와 같은 이전의 비전-언어 사전 학습 작업 및 현대의 다중 모달 설계인 LLaVA를 기반으로 하여, 텍스트 인코더를 제거하고 오직 캡셔닝 손실만을 유지하는 방식으로 접근합니다. 이러한 단순화된 구조는 이미지 인코더와 텍스트 디코더의 두 모듈로 구성되어, 생성적 학습 신호를 통해 시각적 표현을 효과적으로 학습할 수 있도록 합니다. OpenVision 2의 초기 실험 결과는 원래 모델의 성능을 유지하면서도 학습 시간과 메모리 소비를 크게 줄이는 데 성공했습니다. 예를 들어, ViT-L/14 백본을 사용할 경우 학습 시간이 1.5배 단축되었고, 메모리 사용량은 1.8배 감소하여 최대 배치 크기를 2,000에서 8,000으로 증가시킬 수 있었습니다. 이러한 개선은 OpenVision 2가 10억 개 이상의 매개변수로 확장될 수 있는 가능성을 열어주며, 경량의 생성 전용 패러다임이 다중 모달 기초 모델 개발에 있어 매력적임을 시사합니다. 이 연구는 CLIP 스타일의 대조 학습이 비전 인코더 구축에 필수적이라는 기존의 믿음을 재고하도록 촉구합니다. OpenVision 2는 순수한 생성 목표가 다중 모달 성능에서 대조 방법과 경쟁할 수 있음을 보여주며, 계산 비용을 크게 줄이고 더 큰 모델 확장을 가능하게 합니다. 연구자들은 OpenVision 2의 전체 학습 세트와 사전 학습된 체크포인트를 활용하여 비전 인코더의 생성 사전 학습 가능성을 더욱 탐구할 수 있는 기회를 가지게 됩니다. 이러한 혁신은 다중 모달 학습 분야에서의 새로운 방향성을 제시하며, 향후 연구에 중요한 기여를 할 것으로 기대됩니다. 이 논문은 OpenVision의 아키텍처와 손실 설계를 단순화하여 학습 효율성을 향상시키는 방법을 제시합니다. 이전의 비전-언어 사전학습 작업인 CapPa와 AIMv2, 그리고 LLaVA와 같은 현대의 다중 모달 설계를 바탕으로, 우리의 변화는 간단합니다: 텍스트 인코더(따라서 대조 손실)를 제거하고, 순수한 생성 학습 신호로서 캡셔닝 손실만을 유지합니다. 우리는 이 새로운 버전을 OpenVision 2라고 명명합니다. 초기 결과는 유망합니다: 이러한 단순화에도 불구하고 OpenVision 2는 광범위한 다중 모달 벤치마크에서 원래 모델의 성능과 경쟁적으로 일치하며, 학습 시간과 메모리 소비를 상당히 줄입니다. 예를 들어, ViT-L/14를 사용할 경우, 학습 시간을 약 1.5배 단축(83시간에서 57시간으로)하고, 메모리 사용량을 약 1.8배 감소시킵니다(24.5GB에서 13.8GB로, 최대 배치 크기를 2k에서 8k로 늘릴 수 있게 됨). 이러한 우수한 학습 효율성은 OpenVision에서 사용된 가장 큰 비전 인코더를 넘어 확장할 수 있게 하여, 10억 개 이상의 파라미터에 도달할 수 있게 합니다. 우리는 이 경량의 생성 전용 패러다임이 다중 모달 기초 모델에서 미래의 비전 인코더 개발에 매력적이라고 강하게 믿고 있습니다. This paper provides a simplification on OpenVision's architecture and loss design for enhancing its training efficiency. Following the prior vision-language pretraining works CapPa and AIMv2, as well as modern multimodal designs like LLaVA, our changes are straightforward: we remove the text encoder (and therefore the contrastive loss), retaining only the captioning loss as a purely generative training signal. We name this new version OpenVision 2. The initial results are promising: despite this simplification, OpenVision 2 competitively matches the original model's performance on a broad set of multimodal benchmarks while substantially cutting both training time and memory consumption. For example, with ViT-L/14, it reduces training time by about 1.5x (from 83h to 57h), and memory usage by about 1.8x (from 24.5GB to 13.8GB, equivalently allowing the maximum batch size to grow from 2k to 8k). This superior training efficiency also allows us to scale far beyond the largest vision encoder used in OpenVision, reaching more than 1 billion parameters. We hold a strong belief that this lightweight, generative-only paradigm is compelling for future vision encoder development in multimodal foundation models. https://arxiv.org/abs/2509.01644 https://ucsc-vlaa.github.io/OpenVision2 https://github.com/UCSC-VLAA/OpenVision https://huggingface.co/collections/UCSC-VLAA/… https://huggingface.co/datasets/UCSC-VLAA/Recap-DataComp-1B 대규모 언어 모델(LLM)의 사용이 기업 환경에서 확산됨에 따라, 이와 관련된 여러 위험 요소가 대두되고 있다. 특히, LLM의 출력이 잘못된 정보를 포함할 가능성은 건강 조언과 같은 민감한 분야에서 심각한 결과를 초래할 수 있다. 이러한 위험을 완화하기 위해 가드레일(Guardrails) 기술이 필요하며, 이는 LLM의 입력 및 출력 텍스트를 다양한 탐지기를 통해 필터링하는 방식으로 작동한다. 그러나 강력한 탐지기를 개발하고 유지하는 데 있어 가장 큰 장애물 중 하나는 실제 LLM 출력에 대한 프로덕션 품질의 레이블이 있는 데이터를 확보하는 것이 어렵다는 점이다. 본 연구에서는 이러한 문제를 해결하기 위해 백프롬프팅(Backprompting) 이라는 혁신적인 방법론을 제안한다. 백프롬프팅은 사용자가 입력한 질문을 기반으로 LLM이 생성한 텍스트에 대해 다시 질문을 던짐으로써 프로덕션 유사 레이블 데이터를 생성하는 접근법이다. 이 과정에서 희소한 인간-루프 클러스터링 기법을 활용하여 생성된 데이터에 레이블을 붙인다. 이를 통해 원래 데이터셋을 대략적으로 대표하면서도 실제 LLM 출력과 유사한 병렬 코퍼스를 구축할 수 있다. 연구의 핵심 목표는 기존 데이터셋에 합성 예제를 주입하여 탐지기를 위한 강력한 학습 데이터를 생성하는 것이다. 이를 통해 건강 조언을 식별하는 가드레일 구축에 있어 성능을 향상시키는 것을 목표로 한다. 실험 결과, 제안된 탐지기는 기존의 방법들에 비해 최대 3.73%의 성능 향상을 기록하며, GPT-4o와 비교했을 때도 뛰어난 결과를 보여준다. 이러한 성과는 백프롬프팅을 통해 생성된 데이터가 탐지기의 학습에 긍정적인 영향을 미쳤음을 나타낸다. 결론적으로, 본 연구는 LLM 출력의 안전성을 높이기 위한 새로운 데이터 생성 방법론을 제시하며, 향후 다양한 분야에 적용될 가능성을 보여준다. 백프롬프팅은 건강 조언 가드레일 개발에 효과적이며, LLM의 안전한 사용을 위한 중요한 기여를 할 것으로 기대된다. 대규모 언어 모델(LLM)의 기업 환경에서의 확산은 이들의 사용과 관련된 상당한 위험을 동반하게 되었습니다. 가드레일 기술은 다양한 탐지기를 통해 LLM의 입력/출력 텍스트를 필터링하여 이러한 위험을 완화하는 것을 목표로 합니다. 그러나 강력한 탐지기를 개발하고 유지하는 데는 여러 가지 도전 과제가 있으며, 그 중 하나는 배포 전에 실제 LLM 출력에 대한 생산 품질의 레이블이 있는 데이터를 획득하는 것이 어렵다는 점입니다. 본 연구에서는 건강 조언 가드레일 개발을 위한 생산 유사 레이블 데이터 생성을 위한 간단하면서도 직관적인 솔루션인 백프롬프팅(backprompting)을 제안합니다. 또한, 생성된 데이터에 레이블을 붙이기 위해 희소한 인간-루프 클러스터링 기법과 백프롬프팅 방법을 결합합니다. 우리의 목표는 원본 데이터셋을 대략적으로 대표하면서도 실제 LLM 출력과 유사한 병렬 코퍼스를 구축하는 것입니다. 그런 다음, 기존 데이터셋에 우리의 합성 예제를 주입하여 탐지기를 위한 강력한 학습 데이터를 생성합니다. 우리는 LLM 출력에서 건강 조언을 식별하는 가장 어렵고 미묘한 가드레일 중 하나에서 우리의 기술을 테스트하고, 다른 솔루션에 비해 개선된 성능을 입증합니다. 우리의 탐지기는 400배 적은 매개변수에도 불구하고 GPT-4o보다 최대 3.73% 더 우수한 성능을 발휘할 수 있습니다. The pervasiveness of large language models (LLMs) in enterprise settings has also brought forth a significant amount of risks associated with their usage. Guardrails technologies aim to mitigate this risk by filtering LLMs' input/output text through various detectors. However, developing and maintaining robust detectors faces many challenges, one of which is the difficulty in acquiring production-quality labeled data on real LLM outputs prior to deployment. In this work, we propose backprompting, a simple yet intuitive solution to generate production-like labeled data for health advice guardrails development. Furthermore, we pair our backprompting method with a sparse human-in-the-loop clustering technique to label the generated data. Our aim is to construct a parallel corpus roughly representative of the original dataset yet resembling real LLM output. We then infuse existing datasets with our synthetic examples to produce robust training data for our detector. We test our technique in one of the most difficult and nuanced guardrails: the identification of health advice in LLM output, and demonstrate improvement versus other solutions. Our detector is able to outperform GPT-4o by up to 3.73%, despite having 400x less parameters. https://arxiv.org/abs/2508.18384 Reinforcement Learning with Verifiable Reward (RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 극대화하는 데 중요한 역할을 하고 있지만, 그 잠재력은 두 가지 미개척 차원인 Depth(모델이 샘플링할 수 있는 가장 어려운 문제)와 Breadth(단일 반복에서 소비되는 인스턴스 수)에 의해 제한되고 있다. 본 연구에서는 기존의 GRPO(Generalized Relative Preference Optimization) 알고리즘을 분석하여, 누적 이점(cumulative advantage)이 중간 정확도의 샘플에 불균형적으로 가중치를 부여하고, 저정확도 인스턴스를 경시하는 체계적 편향을 드러낸다. 이를 해결하기 위해 Difficulty Adaptive Rollout Sampling (DARS) 방법론을 제안하며, 이 방법은 목표 지향적인 다단계 롤아웃을 통해 어려운 문제의 가중치를 재조정하여 긍정적인 롤아웃 수를 증가시킨다. DARS는 단순히 롤아웃 크기를 늘리는 것이 아닌, Pass@K 성능을 향상시키는 데 기여한다. 또한, 훈련 데이터의 폭을 공격적으로 확장하는 것이 추론 향상에 기여할 수 있음을 탐구하며, 배치 크기를 대폭 확대하고 Proximal Policy Optimization (PPO)의 미니 배치 반복을 여러 에포크에 걸쳐 전체 배치 업데이트로 대체한다. 이러한 접근은 Pass@1 성능을 크게 향상시키며, 대규모 폭 훈련이 높은 토큰 수준의 엔트로피를 유지하여 지속적인 탐색과 그래디언트 노이즈 감소를 나타낸다. DARS-B는 DARS에 대규모 폭을 추가하여 Pass@K와 Pass@1에서 동시에 성능 향상을 달성하는 방법론으로, 폭과 깊이에 대한 적응적 탐색이 RLVR의 추론 능력을 발휘하는 데 중요한 역할을 한다. 본 연구는 이러한 방법론을 통해 RLVR의 추론 능력을 극대화하기 위한 새로운 방향을 제시하며, 깊이와 폭의 적응적 탐색이 RLVR의 성능 향상에 기여함을 실험적으로 입증한다. 강화 학습과 검증 가능한 보상(Reinforcement Learning with Verifiable Reward, RLVR)은 대규모 언어 모델의 추론 능력을 발휘하는 강력한 패러다임으로 부상했지만, 그 잠재력은 두 가지 충분히 탐구되지 않은 차원에 의해 제한되고 있습니다: 깊이(Depth) - 모델이 샘플링할 수 있는 가장 어려운 문제; 폭(Breadth) - 단일 반복에서 소비되는 인스턴스의 수. 우리는 인기 있는 GRPO 알고리즘을 분석하고 체계적인 편향을 드러냅니다: 누적 이점(cumulative-advantage)은 중간 정확도의 샘플에 불균형적으로 가중치를 부여하고, 추론 경계를 확장하는 데 중요한 저정확도 인스턴스의 가중치는 줄입니다. 깊이 무시를 수정하기 위해, 우리는 난이도 적응 롤아웃 샘플링(Difficulty Adaptive Rollout Sampling, DARS)을 도입하여, 목표 지향적인 다단계 롤아웃을 통해 어려운 문제의 가중치를 재조정함으로써 어려운 문제에 대한 긍정적인 롤아웃 수를 증가시킵니다. 경험적으로, 롤아웃 크기를 단순히 늘리는 것은 수렴을 가속화할 뿐만 아니라 Pass@K에 부정적인 영향을 미칩니다. 반면, 우리의 DARS는 수렴 시 추가적인 추론 비용 없이 일관된 Pass@K 향상을 제공합니다. 탐색의 깊이를 적응적으로 확장한 것처럼, 우리는 이제 훈련 데이터의 폭을 공격적으로 확장하면 추론 향상을 더욱 증대시킬 수 있는지를 질문합니다. 이를 위해, 우리는 배치 크기를 대폭 확대하고 PPO의 미니 배치 반복을 여러 에포크에 걸쳐 전체 배치 업데이트로 교체합니다. 폭을 증가시키면 Pass@1 성능이 크게 향상됩니다. 대규모 폭 훈련은 높은 토큰 수준 엔트로피를 유지하여 지속적인 탐색과 감소된 그래디언트 노이즈를 나타냅니다. 우리는 DARS-B를 추가로 제시하여 DARS를 대규모 폭으로 보강하고, Pass@K와 Pass@1에서 동시에 향상을 보여줍니다. 결과는 폭과 깊이에 걸친 적응 탐색이 RLVR에서 직교하는 차원으로 작용하며, 이는 RLVR의 추론 능력을 발휘하는 데 핵심적임을 확인합니다. Reinforcement Learning with Verifiable Reward (RLVR) has emerged as a powerful paradigm for unlocking reasoning capabilities in large language models, yet its full potential is hindered by two under-explored dimensions: Depth-the hardest problem a model can sample; Breadth-the number of instances consumed in a single iteration. We dissect the popular GRPO algorithm and reveal a systematic bias: the cumulative-advantage disproportionately weights samples with medium accuracy, while down-weighting the low-accuracy instances that are crucial for pushing reasoning boundaries. To rectify the depth neglect, we introduce Difficulty Adaptive Rollout Sampling (DARS), which re-weights hard problems through targeted multi-stage rollouts, thereby increasing the number of positive rollouts for hard problems. Empirically, naively enlarging rollout size only accelerates convergence and even hurts Pass@K. Our DARS, in contrast, delivers consistent Pass@K gains without extra inference cost at convergence. Just as we adaptively expanded the depth of exploration, we now ask whether aggressively scaling the breadth of training data can further amplify reasoning gains. To this end, we intensely scale batch size and replace PPO's mini-batch iterations with full-batch updates over multiple epochs. Increasing breadth significantly enhances Pass@1 performance. Large-breadth training sustains high token-level entropy, indicating continued exploration and reduced gradient noise. We further present DARS-B, which augments DARS with large breadth, and demonstrate simultaneous gains in Pass@K and Pass@1. The results confirm that breadth and adaptive exploration across depth operate as orthogonal dimensions in RLVR, which are key to unleashing the reasoning power of RLVR. https://arxiv.org/abs/2508.13755 Vision-Language-Action (VLA) 모델은 다음 프레임 예측을 통해 훈련된 내부 세계 모델에 의존하지만, 이 방법은 정적인 외관과 동적인 움직임이 얽혀 있어 물리적 추론에 어려움을 겪습니다. 이를 해결하기 위해 Visual Chain of Thought (Visual CoT)라는 사전 훈련 프레임워크를 도입하여 장면의 진화를 추론한 후 예측하도록 유도합니다. FlowVLA는 중간의 광학 흐름 표현을 생성한 후 미래 프레임을 예측하는 방식으로, 이 과정은 단일 자기회귀 Transformer 내에서 구현되어 동적인 요소를 분리하여 학습합니다. 실험 결과, FlowVLA는 일관된 시각적 예측을 생성하고 정책 학습의 효율성을 크게 향상시켜 세계 모델링의 보다 원칙적인 기초를 제시합니다. 많은 비전-언어-행동(VLA) 모델은 다음 프레임 예측을 통해 학습된 내부 세계 모델에 의존합니다. 그러나 이 접근 방식은 정적 외관과 동적 움직임을 얽히게 하여 물리적 추론에 어려움을 겪으며, 종종 그럴듯하지 않은 시각적 예측과 비효율적인 정책 학습을 초래합니다. 이러한 한계를 해결하기 위해 우리는 시각적 사고의 연쇄(Visual Chain of Thought, Visual CoT)를 도입합니다: 이는 모델이 장면이 어떻게 발전하는지를 추론하도록 유도하는 사전 학습 프레임워크입니다. 우리는 이 원리를 FlowVLA에 구현하여, 동적 움직임을 인코딩하는 중간 광학 흐름 표현($f_t$)을 생성한 후에만 미래 프레임($v_{t+1}$)을 예측합니다. 이 "$v_t \rightarrow f_t \rightarrow v_{t+1}$" 사고 과정은 단일 자기 회귀 트랜스포머(Transformer) 내에서 구현되어 모델이 분리된 동적 특성을 학습하도록 안내합니다. 그 결과, FlowVLA는 일관된 시각적 예측을 생성하고 보다 효율적인 정책 학습을 촉진합니다. 도전적인 로봇 조작 벤치마크에서의 실험은 상태-of-the-art 성능을 보여주며, 샘플 효율성이 크게 향상된 것을 입증하여 세계 모델링을 위한 보다 원칙적인 기초를 제시합니다. 프로젝트 페이지: https://irpn-lab.github.io/FlowVLA/ Many Vision-Language-Action (VLA) models rely on an internal world model trained via next-frame prediction. This approach, however, struggles with physical reasoning as it entangles static appearance with dynamic motion, often resulting in implausible visual forecasts and inefficient policy learning. To address these limitations, we introduce the Visual Chain of Thought (Visual CoT): a pre-training framework that encourages a model to reason about how a scene evolves before predicting what it will look like. We instantiate this principle in FlowVLA, which predicts a future frame ($v_{t+1}$) only after generating an intermediate optical flow representation ($f_t$) that encodes motion dynamics. This ``$v_t \rightarrow f_t \rightarrow v_{t+1}$'' reasoning process is implemented within a single autoregressive Transformer, guiding the model to learn disentangled dynamics. As a result, FlowVLA produces coherent visual predictions and facilitates more efficient policy learning. Experiments on challenging robotics manipulation benchmarks demonstrate state-of-the-art performance with substantially improved sample efficiency, pointing toward a more principled foundation for world modeling. Project page: https://irpn-lab.github.io/FlowVLA/ https://arxiv.org/abs/2508.18269 https://irpn-lab.github.io/FlowVLA/ 비디오 이해 분야에서의 도전 과제 중 하나는 긴 비디오의 맥락을 효과적으로 처리하는 것입니다. 기존의 비디오 대형 언어 모델(Video Large Language Models, Video-LLMs)은 일반적인 비디오 이해에는 뛰어나지만, 긴 비디오에서는 맥락 창의 한계로 인해 어려움을 겪습니다. 이러한 문제를 해결하기 위해 제안된 Video-EM(Episodic Memory Representation) 프레임워크는 훈련이 필요 없는 혁신적인 접근 방식을 제공합니다. Video-EM은 비디오의 주요 이벤트를 시간적으로 정렬된 에피소드로 모델링하여, 동적 시공간 관계와 내러티브를 포착합니다. 이 프레임워크는 세 가지 핵심 구성 요소로 이루어져 있습니다: Key Event Selection, Episodic Memory Representation, 그리고 Chain of Thought (CoT) Video Reasoning입니다. Key Event Selection 모듈은 쿼리와 관련된 정보를 식별하고 시간적으로 인접한 주요 이벤트를 추출하여, 비디오의 중복성을 해결합니다. Episodic Memory Representation 모듈은 각 이벤트의 시간적 순서를 명시적으로 모델링하여 동적 시공간 맥락을 풍부하게 표현합니다. 이를 통해 비디오의 내러티브를 효과적으로 재구성할 수 있습니다. 마지막으로, CoT Video Reasoning은 관련 에피소드 메모리의 최소 집합을 반복적으로 선택하여 정확하고 맥락에 기반한 답변을 생성합니다. 본 연구는 다양한 벤치마크에서 Video-EM의 성능을 평가하였으며, 기존 모델 대비 4-9%의 성능 향상을 달성한 결과를 보여주었습니다. 이러한 성과는 적은 수의 프레임을 사용하면서도 높은 정확도를 유지하는 데 성공했음을 나타냅니다. Video-EM은 비디오 질문 응답의 정확성을 크게 향상시키며, 비디오 이해 분야에서의 새로운 가능성을 열어주는 중요한 기여를 하고 있습니다. 이러한 접근은 향후 연구에 중요한 기초 자료로 활용될 수 있을 것입니다. 비디오 대규모 언어 모델(Video-LLM)은 일반적인 비디오 이해에서 뛰어난 성능을 보이지만, 맥락 창의 한계로 인해 장편 비디오에서는 어려움을 겪습니다. 따라서 최근 접근 방식은 키프레임 검색에 초점을 맞추어 긴 비디오를 소수의 정보성 프레임으로 압축합니다. 이러한 방법은 실용적이지만, 문제를 정적 텍스트 이미지 매칭으로 단순화하여 장면 전환과 맥락적 연속성을 포착하는 데 중요한 시공간 관계를 간과하며, 정보가 제한된 중복 키프레임을 생성할 수 있어 정확한 비디오 질문 응답에 필수적인 중요한 단서를 희석시킬 수 있습니다. 이러한 한계를 해결하기 위해, 우리는 인간의 에피소드 기억 원칙에서 영감을 받은 학습 없는 프레임워크인 Video-EM을 소개합니다. 이는 강력하고 맥락적으로 기반이 있는 추론을 촉진하도록 설계되었습니다. Video-EM은 키프레임을 고립된 시각적 개체로 취급하는 대신, 이를 시간적으로 정렬된 에피소드 사건으로 명시적으로 모델링하여, 기본 내러티브를 정확하게 재구성하는 데 필요한 공간적 관계와 시간적 역학을 포착합니다. 또한, 이 프레임워크는 LLM과 함께 사고의 연쇄(CoT) 사고를 활용하여 최소한의 정보가 풍부한 에피소드 기억의 하위 집합을 반복적으로 식별함으로써 Video-LLM에 의한 효율적이고 정확한 질문 응답을 가능하게 합니다. Video-MME, EgoSchema, HourVideo, LVBench 벤치마크에 대한 광범위한 평가 결과, Video-EM의 우수성이 확인되었으며, 이는 각각의 기준선에 비해 4-9%의 성능 향상을 이루면서도 더 적은 프레임을 사용하여 경쟁력 있는 결과를 달성합니다. Video Large Language Models (Video-LLMs) excel at general video understanding but struggle with long-form videos due to context window limits. Consequently, recent approaches focus on keyframe retrieval, condensing lengthy videos into a small set of informative frames. Despite their practicality, these methods simplify the problem to static text image matching, overlooking spatio temporal relationships crucial for capturing scene transitions and contextual continuity, and may yield redundant keyframes with limited information, diluting salient cues essential for accurate video question answering. To address these limitations, we introduce Video-EM, a training free framework inspired by the principles of human episodic memory, designed to facilitate robust and contextually grounded reasoning. Rather than treating keyframes as isolated visual entities, Video-EM explicitly models them as temporally ordered episodic events, capturing both spatial relationships and temporal dynamics necessary for accurately reconstructing the underlying narrative. Furthermore, the framework leverages chain of thought (CoT) thinking with LLMs to iteratively identify a minimal yet highly informative subset of episodic memories, enabling efficient and accurate question answering by Video-LLMs. Extensive evaluations on the Video-MME, EgoSchema, HourVideo, and LVBench benchmarks confirm the superiority of Video-EM, which achieves highly competitive results with performance gains of 4-9 percent over respective baselines while utilizing fewer frames. https://arxiv.org/abs/2508.09486 이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. 🤗 ⚠️광고⚠️: 🔥파이토치 한국 사용자 모임🇰🇷이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일💌로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)PyTorchKR🔥🇰🇷 🤔💭
언어 모델이 환각을 일으키는 이유 / Why Language Models Hallucinate (feat. OpenAI)
논문 소개
논문 초록(Abstract)
논문 링크
대규모 언어 모델 임베딩의 의미 구조 / Semantic Structure in Large Language Model Embeddings
논문 소개
논문 초록(Abstract)
논문 링크
rStar2-Agent: 에이전트적 추론 기술 문서 / rStar2-Agent: Agentic Reasoning Technical Report (feat. Microsoft)
논문 소개
논문 초록(Abstract)
논문 링크
더 읽어보기
uGMM-NN: 단변량 가우시안 혼합 모델 신경망 / uGMM-NN: Univariate Gaussian Mixture Model Neural Network
논문 소개
논문 초록(Abstract)
논문 링크
대규모 언어 모델에서 강화학습을 통한 emergent 계층적 추론 / Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning
논문 소개
논문 초록(Abstract)
논문 링크
OpenVision 2: 다중 모달 학습을 위한 생성적 사전 학습 시각 인코더 패밀리 / OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning (feat. Apple)
논문 소개
논문 초록(Abstract)
논문 링크
더 읽어보기
백프롬프팅: 건강 조언 가드레일을 위한 합성 프로덕션 데이터 활용 / Backprompting: Leveraging Synthetic Production Data for Health Advice Guardrails (feat. IBM Research)
논문 소개
논문 초록(Abstract)
논문 링크
RLVR에서의 깊이-폭 시너지: 적응형 탐색을 통한 LLM 추론 능력 향상 / Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration
논문 소개
논문 초록(Abstract)
논문 링크
FlowVLA: 시각적 사고의 연쇄로 움직임을 생각하다 / FlowVLA: Thinking in Motion with a Visual Chain of Thought
논문 소개
논문 초록(Abstract)
논문 링크
더 읽어보기
장기 비디오 이해를 위한 에피소드 기억 표현 / Episodic Memory Representation for Long-form Video Understanding
논문 소개
논문 초록(Abstract)
논문 링크