All Posts

  • Published on
    로컬에서 Hugging Face Transformers로 LLM을 돌리다 OOM이 날 때, VRAM·RAM 사용량을 즉시 낮추는 7가지 실전 처방을 정리합니다. fp16/bf16, 8bit/4bit, offload, KV 캐시, 배치·컨텍스트 조절까지 한 번에 점검하세요.
  • Published on
    로컬 GPU에서 Transformers로 LLM을 돌릴 때 가장 흔한 OOM을 4bit 양자화와 CPU·디스크 오프로딩으로 해결하는 실전 설정을 정리합니다. VRAM 한계에서 안정적으로 추론을 돌리는 체크리스트와 코드 예제를 제공합니다.
  • Published on
    AutoGPT류 에이전트가 ‘기억’을 쌓을수록 느려지고 비용이 폭증하는 원인을 메모리 누수 관점에서 정리합니다. 벡터DB, 요약 파이프라인, TTL·GC 설계를 통해 장기 실행 에이전트를 안정화하는 방법을 다룹니다.