Show GN: AI 에이전트를 더 좋게 만들려 했는데, 내 아이디어 대부분이 틀렸다

1 week ago 8

범용 AI 에이전트 RUNE을 만들고 있습니다. 그런데 이 글은 기능 자랑이 아니라, RUNE을 더 좋게 만들려고 세운 제 개선 아이디어 대부분이 막상 측정해보니 틀렸더라는 기록입니다. 제품 소개부터 짧게 하고, 틀린 얘기로 넘어가겠습니다.

RUNE은 코딩, 문서작성(엑셀·PPT·PDF), 웹 리서치, 파일·메모리까지 하나의 도구셋으로 처리하는 올라운더 에이전트를 지향합니다 로컬 소형 모델이든 프론티어 API(Claude/GPT/Gemini)든 같은 에이전트로 돌아가고, 로컬로 돌리면 데이터가 내 컴퓨터 밖으로 안 나가고 비용도 0입니다.

차별점 하나만 꼽자면 성공을 위조하지 않습니다. 테스트나 린트 같은 검증 수단이 있으면 실제로 돌려서 통과할 때만 "완료"라 하고, 실패하면 실패했다고 말합니다. 많은 에이전트가 안 돌려보고 "됐습니다"라고 합니다.

구체적으로 이런 걸 합니다:

웹소켓 서버를 짜고 직접 띄운 뒤, 클라이언트로 연결해 에코를 받아 동작을 검증
엑셀/PPT/Word/PDF를 진짜 파일로 생성 (포맷 지정 안 하면 작업 성격 보고 알아서 선택: 표→xlsx, 발표→pptx, 보고서→pdf)
실패하는 테스트를 실제로 pytest 돌려서 고치고 green 확인
없는 고객의 이메일, 미래 분기 매출, /etc 삭제 같은 유도엔 지어내지 않고 거부

이제 본론입니다. "에이전트를 더 똑똑하게" 만들려고 세운 제 개선 아이디어 대부분이 막상 측정해보니 틀렸습니다:

토큰 절약 캡 : 스크래핑이 25만 토큰을 태우길래 "낭비"로 보고 4가지 방식으로 잘랐는데, 전부 역효과. 그 호출들은 낭비가 아니라 약한 모델이 답을 한 조각씩 조립하는 과정이라, 자르면 절약이 아니라 실패였습니다.
자기개선 루프 : "스스로 학습한다"고 말하기 전에 켜고/끄고 5번 비교했더니 유의미한 차이 0. 알고 보니 정답이 아니라 내부 점수 메커니즘을 최적화하고 있었습니다.
약한 모델에 지시 주입 : "필요한 값만 작게 가져와라"는 명확한 프롬프트 지시를 로컬 모델은 매번 무시. "프롬프트에 있다"와 "모델이 따른다"는 다른 얘기였습니다.
자기진화 아키텍처(GEPA/DGM 논문) : 도입 직전까지 갔다가, 그 결과들이 수백 태스크·강모델·수천 회 반복에서 나온 거라 단일 사용자·약한 모델엔 안 맞는다는 걸 확인하고 접었습니다.

병목은 기능이 아니라 신뢰성과 정직함이었습니다. 살아남은 건 화려한 게 아니라 지루한 것들이었습니다. 실제로 검증을 돌리고, 결과를 위조하길 거부하고, 지루한 버그를 고치는 것.