- Factorio 게임을 기반으로 한 Factorio Learning Environment(FLE)는 장기 계획, 프로그램 생성, 자원 최적화를 테스트하는 환경임
- FLE는 기본 자동화에서 복잡한 공장까지 확장 가능한 도전을 제공하며, 두 가지 설정을 포함함: 고정된 자원으로 24개의 구조화된 작업을 수행하는 'Lab-play'와 무한한 과제를 제공하는 'Open-play'.
-
FLE의 중요성
- FLE는 코드 생성, 공간 추론, 장기 계획을 평가하기 위한 인프라, API, 메트릭을 제공함.
- 에이전트는 자원을 추출하고 복잡한 생산 체인을 관리하며, 이를 통해 점점 더 복잡한 목표를 설정하고 달성해야 함.
-
환경 및 에이전트
- 에이전트는 Python API를 통해 환경과 상호작용하며, 프로그램을 제출하고 피드백을 받아 전략을 개선함.
- 에이전트 프로그램은 생산 점수(PS)와 기술 발전을 나타내는 이정표를 생성함.
-
실험 설정
- 두 가지 실험 설정: 'Open-play'와 'Lab-play'.
- 여섯 가지 최첨단 언어 모델을 평가: Claude 3.5-Sonnet, GPT-4o, GPT-4o-Mini, Deepseek-v3, Gemini-2-Flash, Llama-3.3-70B-Instruct.
-
Open-Play
- 에이전트는 절차적으로 생성된 세계에서 "가장 큰 공장을 건설"하는 목표를 가짐.
- 생산 점수를 통해 에이전트의 능력을 평가하며, 더 뛰어난 모델은 더 높은 점수와 가파른 성장 곡선을 보임.
-
Lab-Play
- 에이전트는 자원을 제공받고 제한된 시간 내에 목표를 달성해야 함.
- 24개의 목표 엔티티를 생산하는 과제를 수행하며, 각 엔티티는 점점 더 복잡해짐.
-
주요 통찰
- 코딩 능력이 성능을 예측하며, 기술 투자와 계획이 성장을 주도함.
- 공간 추론과 오류 복구는 주요 도전 과제임.
- 모델은 서로 다른 프로그래밍 스타일을 보임.
-
결론
- 최신 LLM도 자동화 작업의 조정 및 최적화 문제에서 어려움을 겪음.
- Factorio의 기술 트리의 복잡성은 AI 연구가 계속 발전하더라도 여전히 도전적인 평가 시나리오를 제공함.
- FLE는 복잡하고 무한한 도메인에서 에이전트의 능력을 연구하기 위한 오픈 소스 플랫폼으로 제공됨.