Published on2026년 2월 16일Transformers 로컬 LLM 속도 2배 - GGUF+KV 캐시aiTransformers 기반 로컬 LLM 추론에서 체감 속도를 2배 가까이 끌어올리는 핵심은 모델 포맷(GGUF)과 KV 캐시 활용입니다. CPU/GPU 환경별 병목을 짚고, 재현 가능한 코드와 튜닝 포인트를 정리합니다.Read more →
Published on2026년 2월 16일Transformers 로컬 LLM OOM 해결 - QLoRA+4bitai로컬 GPU에서 Transformers로 LLM을 미세튜닝/추론할 때 가장 흔한 OOM 원인을 짚고, QLoRA와 4bit 양자화로 메모리를 줄이면서 성능을 지키는 실전 설정을 정리합니다.Read more →
Published on2026년 2월 16일Transformers 로컬 LLM OOM? KV 캐시 절감 5가지ai로컬에서 Transformers로 LLM을 돌리다 OOM이 난다면, 범인은 종종 KV 캐시입니다. KV 캐시가 왜 커지는지 계산으로 이해하고, 바로 적용 가능한 5가지 절감 전략과 코드 예제를 정리합니다.Read more →
Published on2026년 2월 15일AutoGPT 메모리 폭주·루프 방지 - 벡터DB+가드레일aiAutoGPT 에이전트가 메모리를 무한히 쌓거나 같은 행동을 반복하는 문제를 벡터DB 기반 장기기억과 가드레일(예산·종료조건·중복탐지)로 안정화하는 실전 설계를 정리합니다.Read more →
Published on2026년 2월 15일AutoGPT 메모리 누수? 벡터DB TTL·압축 실전aiAutoGPT가 장시간 돌수록 메모리가 새는 것처럼 보이는 원인은 대개 벡터DB·캐시·로그·세션 누적입니다. TTL, 압축, 인덱스/세그먼트 튜닝으로 비용과 성능을 동시에 잡는 실전 패턴을 정리합니다.Read more →