새로 접한 서비스들을 테스트해볼 겸, 서로 다른 강점을 지닌 4가지 에이전트로 바이브 코딩을 해봄. (예전에 AI 프로토타이핑 서비스(v0, Lovable, Replit, Bolt, Tempo, Mocha)들을 딥리서치 + 각각 써보면서 비교한 적 있었는데, 이번에는 같은 프롬프트로 구현해서 비교) 모두 동일하게, 지인들과 함께 자체 개발해서 진행했던 도움 요청 기술 훈련 워크숍의 핸드아웃을 넣고 "혼자 훈련할 수 있는 시뮬레이션 앱을 만들어달라"고 했음 각 서비스는 다음 7개 기준(총 70점 만점)으로, 지극히 주관적으로 평가 (표로 요약한 이미지, 그리고 각 서비스별 상세 동작 화면은 블로그에 있습니다) 전반적으로: 몇 턴에 완성했나: 감상 구현 과정 그냥 다 잘함. 첫턴 구현이 가장 빠르고 깔끔함. 에러 메시지 기반 자동 버그픽스 편리. 무료 비주얼 에딧과 버그픽스 좋음. 코드 수정도 유료는 그자리에서, 무료는 깃헙 연동해서 가능. 즉시 퍼블릭 배포도 좋음. 구현 결과 UI는 역시 예쁘고 흠잡을 데 없음. 기능이 풍부하진 않지만 창의적으로 핸드아웃 해석해서 직관적이고, 있을 기능은 다 있었음. 도움 요청 3단계를 항상 따라야 한다는 건 단점. 시뮬레이션도 단순한 룰 기반이었지만 적절했음. 여기에 LLM을 비롯해 다른 서비스에서 좋았던 점들만 붙이면 되겠다 싶었음. 구현 과정 무료 채팅, 무료로 Gemini 호출 가능하다는 특장점. 첫턴에 꽤 잘 만들고, **만든 직후 나오는 버그는 혼자 고침. ** 멀티턴에서는 잘 못하는 편. 에러 메시지 기반 자동 버그픽스도 가능하지만 정작 그 버그를 끝까지 고치질 못해서 결국 수동 개입했음. 비주얼 에딧은 없지만 코드 수정이 가장 편함. 배포하려면 Cloud Run 필요한 게 단점. 구현 결과 UI가 확실히 딱딱함. 구글 도구들이 생각나고, 핸드아웃 내용을 창의적으로 해석하지 않고 그대로 나옴. 3단계를 항상 다 해야 해서 불편한 면이 있음. 하지만 역시 시뮬레이션에서 채팅하면 AI가 대답해주는 경험이 굉장히 유니크하고 효과적어서 점수 더 받음. 이건 얘밖에 못해줌. 🥉 3등 Rork - 46점 (3턴에 완성) 구현 과정 모바일 앱이 되는 게 특장점. 안드로이드, 아이폰 둘 다 Expo Go 앱으로 폰에 설치해서 잘 작동했음. Claude Sonnet 4를 비롯한 구현 모델 선택 가능. 자동 버그픽스 있고 버그 실제로 잘 고침. 코드 수정은 못하고, 비주얼 에딧 없고, 무엇보다 버그픽스를 유료로 하는 게 문제. 인간적으로 자기가 첫턴에 만든 버그 있는 앱 고치는 건 무료로 해줘야 하는 거 아닌가? 구현 결과 혼자서만 영어로 만듦. UI가 딱딱하고 안예뻤음. 핸드아웃 내용이 상당 부분 그대로 나옴. 그래도 있을 건 다 있고, 3가지 기능을 개별로 실행할 수 있어서 편했음. 시뮬레이션은 객관식으로 하고 평가해줘서 초보자가 훈련하기에 좋다고 느낌. 근데 너무 텍스트가 길긴 했음. 구현 과정 웹 서치를 통한 추가 플래닝 좋음. 그러나 일은 엄청 많이 하는데 3개 앱 만들며 한번도 완성 못함. 혼자 돌려본 뒤 또 플래닝해서 버그픽스 시도하고 못고침. 메시지당 과금이 아닌데 혼자 시도-실패 반복하며 크레딧 대량 소모해 불만. 중간 과정마다 버전을 퍼블릭 URL에 배포해줌. 근데 예전 버전이 나을 때도 많음. 중간에 구현 실패하면 수동 재실행 필요. 코드는 다운받아야만 보이고 당연히 수정도 프롬프트로만 가능. 비주얼 에딧 불가. 구현 결과 첫 플래닝과 중간 프리뷰 아주 인상적. 결국 완성 못했지만 + 버전별로 달라지긴 했지만 다른 앱들에서 차용할 만한 요소가 많았음. 더 엄밀하게 사전 평가하거나, 다양한 시나리오와 난이도별로 훈련하거나 등. UI도 일부 이상한 거 빼고 예뻤고, 가장 세심했음.
평가 결과 요약
상세 평가
🥇 1등 Lovable - 63점 (첫턴에 완성)
🥈 2등 Gemini App Build - 56점 (첫턴에 혼자 버그픽스 후 완성)
4등 Flowith Neo - 35점 (n턴 후 미완성)