All Posts

  • Published on
    AutoGPT가 오래 돌수록 메모리가 비대해지고 비용이 폭증하는 문제를 벡터DB 설계와 요약 압축 전략으로 제어하는 방법을 정리합니다. 검색 품질을 유지하면서 토큰·지연·저장 비용을 낮추는 실전 튜닝 포인트를 다룹니다.
  • Published on
    Stable Diffusion ComfyUI에서 워크플로 JSON이 깨졌을 때(파싱 실패, 일부 잘림, 인코딩 문제) 빠르게 복구하는 방법을 정리했습니다. 원인 진단부터 자동 복구 스크립트, 재발 방지 체크리스트까지 다룹니다.
  • Published on
    Transformers 기반 로컬 LLM 서빙에서 체감 속도를 2배 끌어올리는 핵심은 엔진 선택과 배치 전략입니다. vLLM과 TGI를 같은 조건으로 비교하고, 실제 운영 튜닝 포인트를 정리합니다.