Hugging Face Transformers로 로컬 LLM을 돌릴 때 가장 흔한 OOM과 느린 추론 문제를 재현 가능한 체크리스트로 정리합니다. VRAM/메모리 절감(quantization, offload, KV cache)과 속도 최적화(torch.compile, FlashAttention, batching)까지 실전 코드로 설명합니다.
kubectl apply/patch 중 Kubernetes API에서 413(Request Entity Too Large)가 발생하는 원인을 계층별(클라이언트·프록시·API 서버)로 분해하고, 가장 흔한 원인인 큰 Secret/ConfigMap/CRD 페이로드를 안전하게 줄이는 실전 해결책을 정리합니다.