Published on2026년 1월 29일PyTorch QAT로 INT8 양자화 시 정확도 하락 대처aiPyTorch QAT(Quantization Aware Training)로 INT8 양자화를 적용했는데 정확도가 크게 떨어질 때, 원인 진단 체크리스트와 실전 해결책(옵저버·qconfig·fuse·학습 레시피)을 정리합니다.Read more →
Published on2026년 1월 29일Spring Boot 3에서 @Transactional이 안 먹는 6가지techSpring Boot 3에서 @Transactional이 기대대로 동작하지 않는 대표적인 6가지 원인을 프록시/AOP 관점에서 정리합니다. 재현 코드와 함께 즉시 적용 가능한 해결책까지 제공합니다.Read more →
Published on2026년 1월 29일Transformers 로컬 LLM OOM - 8bit·KV 캐시 최적화ai로컬에서 Transformers로 LLM을 돌릴 때 가장 흔한 OOM 원인을 분해하고, 8bit 로딩과 KV 캐시/컨텍스트 최적화로 VRAM 사용량을 체계적으로 줄이는 실전 가이드입니다.Read more →
Published on2026년 1월 29일Transformers 로컬 LLM 로드 VRAM OOM 7가지aiTransformers로 로컬 LLM을 로드할 때 VRAM OOM이 나는 대표 원인 7가지를 정리하고, 각 케이스별로 바로 적용 가능한 코드·설정 해결책을 제공합니다.Read more →
Published on2026년 1월 29일Triton FP16 배포에서 출력 NaN 디버깅 가이드aiTriton Inference Server에 FP16 모델을 배포했을 때 출력이 NaN으로 터지는 원인을 빠르게 좁히는 실전 체크리스트를 정리했습니다. TensorRT·ONNX Runtime·PyTorch 백엔드별 재현/검증 방법과 로그·프로파일링 포인트까지 다룹니다.Read more →