요약

구분 변경 전 (Vision-only) 변경 후 (OCR + AI) 성과
정확도 약 0.70 (불안정) 0.91 이상 대폭 개선 (Stable)
재시도 횟수 평균 2.5 ~ 3회 0회 수렴 중복 호출 제거
Gemini 토큰 건당 과다 소모 358 tokens/건 호출량 67% 감소
외부 비용 비용 누적 리스크 약 25% 절감 비용 효율화

1. 배경: 사진 한 장으로 문제 등록하기

수학 문제 사진을 올리면 AI가 단원과 유형을 자동으로 분석해 주는 기능을 개발했다. 사용자가 일일이 입력하는 번거로움을 없애고, 최소한의 수정만으로 등록을 마치는 것이 목표였다.


2. 문제: Vision-only의 한계와 비용 리스크

초기에는 이미지만 AI(Vision model)에 던지는 방식을 썼는데, 두 가지 심각한 문제가 터졌다.

1) 정확도와 포맷 불안정 (Vision-only)

2) 동기 처리의 비용 누적


3. 아키텍처 개선: 비동기 처리와 락(Lock)

사용자 대기 시간을 없애고 시스템 안정성을 높이기 위해 비동기 워커 패턴을 도입했다.

1) Fire & Forget (빠른 응답)