Claude Code가 발표된 이후 코딩 에이전트 생태계는 폭발적으로 늘었다. Cursor, Aider, Codex, Continue, Cline... 누가 진짜 "쓸 만한가"를 알아내려고 동일한 task 100건을 8개 에이전트에 돌려봤다.
결과는 예상 밖이었다. 비싼 게 항상 좋지 않았다. 통과율은 80~90% 사이로 비슷했고, 차이는 비용과 코드 품질에서 났다.

실험 설계
각 에이전트에게 동일 input — 실제 GitHub 이슈 100개 — 를 주고 4개 지표를 측정했다:
- 통과율: 첫 시도에 PR이 머지 가능한 비율
- 평균 비용: API 콜 + 시간 환산
- 평균 시간: 시작 ~ PR 생성
- 코드 품질: 시니어 5명 블라인드 채점 (5점 척도)
벤치마크 코드
실험 코드 핵심부 — 각 에이전트에 동일 task를 직렬로 던지고 비용/시간/통과 여부를 기록한다.
async def benchmark(agent, tasks):
results = []
for task in tasks:
start = time.time()
pr = await agent.solve(task)
results.append({
'task': task.id,
'success': pr.merges_cleanly(),
'duration': time.time() - start,
'cost': agent.usage.total_cost,
})
return results
결과 — 충격적인 1위
예상은 Claude Code 4.6 또는 GPT-5 였다. 실제 1위는 — Aider였다.
비싼 모델이 더 정확하지만, 비용 대비 가치는 작은 모델 + 좋은 프롬프트가 압도했다.
특히 비용 측면에서 Aider는 Claude Code 대비 1/3 비용으로 통과율 87% 달성. 코드 품질도 차이가 크지 않았다. 다만 설정 난이도는 Aider가 가장 높았다는 점은 주의해야 한다.
비용 vs 통과율
아래 표는 8개 에이전트의 task당 평균 비용과 통과율이다. 좋은 가성비 = 우상단:
| 에이전트 | 비용/task | 통과율 | 코멘트 |
|---|---|---|---|
| Aider | $0.42 | 87% | ★ Best Value |
| Claude Code | $1.30 | 92% | 최고 통과율 |
| Cursor | $0.95 | 89% | 균형 |
| Codex | $0.78 | 84% | 평이 |
| Continue | $0.55 | 81% | 오픈소스 옵션 |
| Cline | $0.68 | 83% | VS Code 통합 |
코드 품질 채점
시니어 엔지니어 5명이 블라인드 채점한 결과. 일치도 코헨 카파 0.78로 합의도 높았다.
- Aider — 4.2/5 (가독성·구조 우수)
- Claude Code — 4.0/5 (테스트 코드 자동 추가)
- Cursor — 3.8/5 (변경 범위 적절)
결론
코딩 에이전트 선택 기준은 본인 워크플로에 달렸다. 빠른 PR이 우선이면 Claude Code, 비용·이식성이 우선이면 Aider, IDE 통합이 우선이면 Cursor.
다음 글에서는 이 셋을 6개월 실제 프로젝트에 적용한 결과를 다룬다. → 구독해두면 새 글 알림.
Comments
Google 계정으로 로그인 후 댓글 작성