Published on2026년 2월 14일Ray Serve 배포 시 모델 로딩 지연·OOM 해결법aiRay Serve 배포에서 가장 흔한 장애인 모델 로딩 지연과 OOM을 원인별로 분해해 진단하고, 레플리카 초기화/메모리 상한/스토리지/동시성 설정으로 해결하는 실전 패턴을 정리합니다.Read more →
Published on2026년 2월 14일Stable Diffusion ComfyUI GPU OOM 8가지 해결aiComfyUI에서 GPU OOM(out of memory)이 나는 대표 원인과, VRAM이 작은 환경에서도 안정적으로 돌리는 8가지 실전 해결책을 정리합니다.Read more →
Published on2026년 2월 14일Stable Diffusion VRAM OOM, xFormers·Tiled VAE로 해결aiStable Diffusion에서 VRAM OOM이 나는 핵심 원인(어텐션·VAE 디코딩·해상도)을 짚고, xFormers와 Tiled VAE로 메모리를 줄이는 실전 설정을 정리합니다.Read more →
Published on2026년 2월 14일Transformers 로컬 LLM OOM·속도 해결 - 4비트 실전ai로컬 LLM을 Transformers로 돌릴 때 가장 흔한 문제인 VRAM OOM과 느린 토큰 생성 속도를 4비트 양자화 중심으로 해결합니다. bitsandbytes, KV 캐시, attention 최적화까지 실전 설정을 코드로 정리했습니다.Read more →
Published on2026년 2월 14일CoT 없이도 잘 푸는 이유 - Self-Consistency 구현aiCoT를 노출하지 않아도 성능을 끌어올리는 Self-Consistency를 실제 서비스 관점에서 구현하는 방법을 정리합니다. 샘플링, 투표/집계, 신뢰도 스코어링, 재시도·폴백까지 포함합니다.Read more →