동일 프롬프트로 바이브 코딩 에이전트 4종 비교해보기 (Lovable, Gemini, Rork, Flowith)

2 weeks ago 8

새로 접한 서비스들을 테스트해볼 겸, 서로 다른 강점을 지닌 4가지 에이전트로 바이브 코딩을 해봄. (예전에 AI 프로토타이핑 서비스(v0, Lovable, Replit, Bolt, Tempo, Mocha)들을 딥리서치 + 각각 써보면서 비교한 적 있었는데, 이번에는 같은 프롬프트로 구현해서 비교)

Lovable: AI 프로토타이핑 서비스 선두주자 중 하나. 유려한 UI를 빠르게 구현해줌. 즉시 퍼블릭 배포 가능
Gemini App Build: Google AI Studio에서 사용. 무료로 Gemini API 호출하는 앱 만들 수 있음. 채팅 수 제한 없음
Rork: 최초로 모바일 앱 시뮬레이터를 내장한 바이브 코딩 서비스. 스마트폰에서 앱으로 테스트 가능
Flowith Neo: 24시간 돌아가는 슈퍼에이전트. 코딩을 포함한 다양한 작업을 멀티에이전트로 할 수 있음

모두 동일하게, 지인들과 함께 자체 개발해서 진행했던 도움 요청 기술 훈련 워크숍의 핸드아웃을 넣고 "혼자 훈련할 수 있는 시뮬레이션 앱을 만들어달라"고 했음

각 서비스는 다음 7개 기준(총 70점 만점)으로, 지극히 주관적으로 평가

구현 과정
- 효율성: 동작하는 앱을 만들기까지 내 개입이 적은가
- 편의성: 테스트와 디버그가 용이한가
- 속도: 구현 속도가 빠른가
- 비용: 구현에 드는 비용이 적은가
구현 결과
- 기능성: 기능이 기대를 충족하며 풍부한가
- 사용성: 만들어진 앱의 UI/UX가 직관적이고 예쁜가
- 효과성: 실제로 도움 요청 기술 훈련에 도움되는가

평가 결과 요약

(표로 요약한 이미지, 그리고 각 서비스별 상세 동작 화면은 블로그에 있습니다)

전반적으로:

구현 과정: Lovable > Gemini >> Rork >>>> Flowith
구현 결과: Lovable ~= Flowith > Gemini = Rork

몇 턴에 완성했나:

Lovable과 Gemini는 둘다 첫턴에 완성 (Gemini는 혼자 버그픽스 한번 해서 완성)
Rork는 (에러 메시지 붙여넣어서) 버그픽스 2차례 후 3턴에 완성
Flowith는 수차례 직접 개입하고 스스로도 고치려고 노력했지만 완성 못 함. 다만 중간에 계속 프리뷰가 나와서 중간 결과는 볼 수 있었음

감상

좀 사심이 담겨있을 순 있지만 전반적으로 Lovable이 압도적. 그래도 각자 특장점들은 확실히 있었음
- Gemini: LLM 호출을 바로 테스트할 수 있는 경험이 특별함
- Rork: 모바일 앱을 폰에서 바로 테스트하니 앱만의 맛이 있음
- Flowith: 추가 리서치를 제대로 함. 완성만 해줬더라면...
기대했던 Flowith는 중간 결과는 인상적이었지만, 아직 바이브 코딩의 메인 툴로 쓰기에는 영 아니라고 생각. 무엇보다 혼자 채팅 메시지 기반이 아닌 크레딧 기반이라 비용이 너무 많이 듦
참고로 구현 과정은 이번뿐 아니라 전체 경험을 통틀어 평가한 것. Rork는 처음이고, 러버블은 여러 번, Gemini와 Flowith는 3개씩 만들어봤음

상세 평가

🥇 1등 Lovable - 63점 (첫턴에 완성)

구현 과정

효율성: 9
편의성: 9
속도: 10
비용: 7

그냥 다 잘함. 첫턴 구현이 가장 빠르고 깔끔함. 에러 메시지 기반 자동 버그픽스 편리. 무료 비주얼 에딧과 버그픽스 좋음. 코드 수정도 유료는 그자리에서, 무료는 깃헙 연동해서 가능. 즉시 퍼블릭 배포도 좋음.

구현 결과

기능성: 9
사용성: 10
효과성: 9

UI는 역시 예쁘고 흠잡을 데 없음. 기능이 풍부하진 않지만 창의적으로 핸드아웃 해석해서 직관적이고, 있을 기능은 다 있었음.

도움 요청 3단계를 항상 따라야 한다는 건 단점. 시뮬레이션도 단순한 룰 기반이었지만 적절했음. 여기에 LLM을 비롯해 다른 서비스에서 좋았던 점들만 붙이면 되겠다 싶었음.

🥈 2등 Gemini App Build - 56점 (첫턴에 혼자 버그픽스 후 완성)

구현 과정

효율성: 7
편의성: 8
속도: 8
비용: 10

무료 채팅, 무료로 Gemini 호출 가능하다는 특장점. 첫턴에 꽤 잘 만들고, **만든 직후 나오는 버그는 혼자 고침. **

멀티턴에서는 잘 못하는 편. 에러 메시지 기반 자동 버그픽스도 가능하지만 정작 그 버그를 끝까지 고치질 못해서 결국 수동 개입했음. 비주얼 에딧은 없지만 코드 수정이 가장 편함. 배포하려면 Cloud Run 필요한 게 단점.

구현 결과

기능성: 8
사용성: 6
효과성: 9

UI가 확실히 딱딱함. 구글 도구들이 생각나고, 핸드아웃 내용을 창의적으로 해석하지 않고 그대로 나옴. 3단계를 항상 다 해야 해서 불편한 면이 있음.

하지만 역시 시뮬레이션에서 채팅하면 AI가 대답해주는 경험이 굉장히 유니크하고 효과적어서 점수 더 받음. 이건 얘밖에 못해줌.

🥉 3등 Rork - 46점 (3턴에 완성)

구현 과정

효율성: 7
편의성: 5
속도: 7
비용: 4

모바일 앱이 되는 게 특장점. 안드로이드, 아이폰 둘 다 Expo Go 앱으로 폰에 설치해서 잘 작동했음. Claude Sonnet 4를 비롯한 구현 모델 선택 가능. 자동 버그픽스 있고 버그 실제로 잘 고침.

코드 수정은 못하고, 비주얼 에딧 없고, 무엇보다 버그픽스를 유료로 하는 게 문제. 인간적으로 자기가 첫턴에 만든 버그 있는 앱 고치는 건 무료로 해줘야 하는 거 아닌가?

구현 결과

기능성: 8
사용성: 7
효과성: 8

혼자서만 영어로 만듦. UI가 딱딱하고 안예뻤음. 핸드아웃 내용이 상당 부분 그대로 나옴. 그래도 있을 건 다 있고, 3가지 기능을 개별로 실행할 수 있어서 편했음.

시뮬레이션은 객관식으로 하고 평가해줘서 초보자가 훈련하기에 좋다고 느낌. 근데 너무 텍스트가 길긴 했음.

4등 Flowith Neo - 35점 (n턴 후 미완성)

구현 과정

효율성: 1
편의성: 3
속도: 3
비용: 1

웹 서치를 통한 추가 플래닝 좋음. 그러나 일은 엄청 많이 하는데 3개 앱 만들며 한번도 완성 못함. 혼자 돌려본 뒤 또 플래닝해서 버그픽스 시도하고 못고침. 메시지당 과금이 아닌데 혼자 시도-실패 반복하며 크레딧 대량 소모해 불만.

중간 과정마다 버전을 퍼블릭 URL에 배포해줌. 근데 예전 버전이 나을 때도 많음. 중간에 구현 실패하면 수동 재실행 필요. 코드는 다운받아야만 보이고 당연히 수정도 프롬프트로만 가능. 비주얼 에딧 불가.

구현 결과

기능성: 9
사용성: 10
효과성: 7

첫 플래닝과 중간 프리뷰 아주 인상적. 결국 완성 못했지만 + 버전별로 달라지긴 했지만 다른 앱들에서 차용할 만한 요소가 많았음. 더 엄밀하게 사전 평가하거나, 다양한 시나리오와 난이도별로 훈련하거나 등. UI도 일부 이상한 거 빼고 예뻤고, 가장 세심했음.

Read Entire Article