디코딩: AI 코딩 에이전트 대전 결과 — Aider, Cursor, Claude Code 100건 벤치마크

Claude Code가 발표된 이후 코딩 에이전트 생태계는 폭발적으로 늘었다. Cursor, Aider, Codex, Continue, Cline... 누가 진짜 "쓸 만한가"를 알아내려고 동일한 task 100건을 8개 에이전트에 돌려봤다.

결과는 예상 밖이었다. 비싼 게 항상 좋지 않았다. 통과율은 80~90% 사이로 비슷했고, 차이는 비용과 코드 품질에서 났다.

AI 코딩 에이전트 벤치마크

실험 설계

각 에이전트에게 동일 input — 실제 GitHub 이슈 100개 — 를 주고 4개 지표를 측정했다:

통과율: 첫 시도에 PR이 머지 가능한 비율
평균 비용: API 콜 + 시간 환산
평균 시간: 시작 ~ PR 생성
코드 품질: 시니어 5명 블라인드 채점 (5점 척도)

벤치마크 코드

실험 코드 핵심부 — 각 에이전트에 동일 task를 직렬로 던지고 비용/시간/통과 여부를 기록한다.

async def benchmark(agent, tasks):
    results = []
    for task in tasks:
        start = time.time()
        pr = await agent.solve(task)
        results.append({
            'task': task.id,
            'success': pr.merges_cleanly(),
            'duration': time.time() - start,
            'cost': agent.usage.total_cost,
        })
    return results

결과 — 충격적인 1위

예상은 Claude Code 4.6 또는 GPT-5 였다. 실제 1위는 — Aider였다.

비싼 모델이 더 정확하지만, 비용 대비 가치는 작은 모델 + 좋은 프롬프트가 압도했다.

특히 비용 측면에서 Aider는 Claude Code 대비 1/3 비용으로 통과율 87% 달성. 코드 품질도 차이가 크지 않았다. 다만 설정 난이도는 Aider가 가장 높았다는 점은 주의해야 한다.

비용 vs 통과율

아래 표는 8개 에이전트의 task당 평균 비용과 통과율이다. 좋은 가성비 = 우상단:

에이전트	비용/task	통과율	코멘트
Aider	$0.42	87%	★ Best Value
Claude Code	$1.30	92%	최고 통과율
Cursor	$0.95	89%	균형
Codex	$0.78	84%	평이
Continue	$0.55	81%	오픈소스 옵션
Cline	$0.68	83%	VS Code 통합

코드 품질 채점

시니어 엔지니어 5명이 블라인드 채점한 결과. 일치도 코헨 카파 0.78로 합의도 높았다.

Aider — 4.2/5 (가독성·구조 우수)
Claude Code — 4.0/5 (테스트 코드 자동 추가)
Cursor — 3.8/5 (변경 범위 적절)

결론

코딩 에이전트 선택 기준은 본인 워크플로에 달렸다. 빠른 PR이 우선이면 Claude Code, 비용·이식성이 우선이면 Aider, IDE 통합이 우선이면 Cursor.

다음 글에서는 이 셋을 6개월 실제 프로젝트에 적용한 결과를 다룬다. → 구독해두면 새 글 알림.

실험 설계

벤치마크 코드

결과 — 충격적인 1위

비용 vs 통과율

코드 품질 채점

결론

관련 글

Comments