디코딩: AI 검색 품질 평가 — 정답률보다 회수율을 먼저 봐야 하는 이유

RAG 품질이 낮다고 느껴질 때 생성 모델만 바꾸면 문제를 놓치기 쉽다. 먼저 검색 단계가 필요한 문서를 충분히 가져오는지 확인해야 한다.

AI 검색 품질 평가 — 정답률보다 회수율을 먼저 봐야 하는 이유

질문 세트 만들기

먼저 측정 가능한 기준을 정했습니다. 감으로 빠르다거나 편하다고 말하기보다, 응답 시간, 실패율, 유지보수 비용처럼 팀이 반복해서 볼 수 있는 지표를 앞에 뒀습니다.

recall = relevantRetrieved / relevantTotal
faithfulness = citedClaims / totalClaims

작게 도입한 뒤 한 주 동안 운영 데이터를 모았습니다. 예상보다 좋았던 부분은 개발 경험이었고, 예상보다 까다로웠던 부분은 예외 상황의 디버깅이었습니다.

마지막 체크리스트는 단순합니다. 되돌릴 수 있는가, 실패를 관찰할 수 있는가, 팀원이 같은 결정을 다시 설명할 수 있는가. 이 세 가지가 통과되면 도입 리스크는 꽤 낮아집니다.

운영 메모

새 기술은 성능보다 운영 루틴을 먼저 흔듭니다. 알림, 로그, 롤백 경로를 같이 설계해야 오래 갑니다.