Skip to content

feat: batch instagram ocr partial results#19

Open
KyungminPark-steck wants to merge 2 commits into
devfrom
feat/18-instagram-ocr-batch-partial-results
Open

feat: batch instagram ocr partial results#19
KyungminPark-steck wants to merge 2 commits into
devfrom
feat/18-instagram-ocr-batch-partial-results

Conversation

@KyungminPark-steck

Copy link
Copy Markdown
Contributor

✨ 무엇을 바꿨나요?

Instagram 이미지 OCR fallback을 5장 단위 batch 처리로 변경하고, 처리 중에도 일정 수 이상의 장소 결과가 확보되면 partial result를 조회할 수 있도록 개선했습니다.

🔗 관련 이슈

Closes #18

💡 왜 바꿨나요?

기존에는 Instagram post 이미지 OCR fallback에서 최대 10장의 이미지를 모두 OCR한 뒤 HF 추출과 Kakao 검색을 한 번에 수행했습니다. 이 때문에 여러 장소를 포함한 게시물에서는 사용자가 최종 결과를 오래 기다려야 했고, 추출 후보 수도 12곳으로 제한되어 결과가 부족할 수 있었습니다.

📝 주요 변경 사항

  • Instagram 이미지 수집 한도를 10장 → 20장으로 확대
  • Instagram carousel next click 한도를 10회 → 20회로 확대
  • HF 장소 추출 후보 한도를 12곳 → 40곳으로 확대
  • Instagram OCR fallback을 5장 단위 batch 처리로 변경
  • 각 batch마다 OCR -> HF 장소 추출 -> Kakao 장소 검색 수행
  • 마지막 저장 이후 신규 resolved place가 5곳 이상이면 job_results에 partial result 저장
  • PROCESSING 상태여도 저장된 result가 있으면 /jobs/{jobId}/result에서 200 응답
  • 후속 OCR batch 실패 시 이미 누적된 장소 결과가 있으면 확보된 결과로 성공 처리
  • 관련 worker/API/config 테스트 추가

👀 리뷰어가 보면 좋은 부분

  • PROCESSING 상태에서 result가 있을 때 /jobs/{jobId}/result를 200으로 반환하는 API 계약 변경이 적절한지
  • partial 저장 기준을 “전체 5곳 이상”이 아니라 “마지막 저장 이후 신규 resolved place 5곳 이상”으로 둔 것이 프론트 요구와 맞는지
  • 후속 OCR batch 실패 시 이미 확보한 결과로 성공 처리하는 정책이 적절한지
  • batch 결과 merge/dedupe 기준이 충분한지

🧪 테스트

방식 (해당하는 것만 체크)

  • 로컬 환경에서 확인
  • 운영 환경에서 확인
  • 단위 / 통합 테스트
  • 해당 없음

메모 (시나리오, 커맨드, 스크린샷 링크 등 — 선택)

  • .\.venv\Scripts\python.exe -m pytest -q
    • 194 passed, 9 skipped
  • 실제 Instagram URL end-to-end 확인
    • https://www.instagram.com/p/DWdnskCgYpj/
      • succeeded=True
      • image_count=10
      • ocr_text_count=10
      • final resolved=32
    • https://www.instagram.com/p/DUkieoqj46S/
      • succeeded=True
      • image_count=11
      • ocr_text_count=11
      • final resolved=24

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

[feat] Instagram 이미지 OCR 장소 추출을 5장 단위 배치 및 부분 결과 저장 방식으로 개선

2 participants