Published on2026년 2월 7일Spring Boot OOM - 메모리 덤프 분석 실전aiSpring Boot에서 OutOfMemoryError가 발생했을 때 힙 덤프를 남기고 MAT로 원인을 추적하는 실전 절차를 정리합니다. 누수 패턴별로 무엇을 의심하고 어떤 지표로 결론을 내리는지까지 다룹니다.Read more →
Published on2026년 2월 7일Transformers 로컬 LLM 2배 가속 - FlashAttention2aiHugging Face Transformers 로컬 추론에서 FlashAttention2를 적용해 토큰 생성 속도를 크게 끌어올리는 방법을 정리합니다. 설치 조건, 코드 적용, 검증/벤치마크, 흔한 오류까지 한 번에 다룹니다.Read more →
Published on2026년 2월 7일Transformers 로컬 LLM CUDA OOM 줄이는 7가지ai로컬에서 Transformers로 LLM을 돌릴 때 가장 흔한 CUDA OOM을 7가지 실전 체크리스트로 줄입니다. 로딩·추론·서빙 단계별로 메모리 사용량을 낮추는 코드와 함께 정리합니다.Read more →
Published on2026년 2월 7일Transformers 로컬 LLM 느림·OOM, 4bit+FlashAttn2ai로컬에서 Transformers로 LLM을 로딩할 때 느려지거나 OOM이 나는 원인을 짚고, 4bit 양자화와 FlashAttention2로 속도·메모리를 동시에 최적화하는 실전 설정을 정리합니다.Read more →
Published on2026년 2월 7일Triton 배포 후 지연 폭증 - 동적 배칭·인스턴스 튜닝aiTriton Inference Server 배포 이후 p95·p99 지연이 급증하는 원인을 동적 배칭과 인스턴스 설정 관점에서 진단하고, 재현 가능한 튜닝 절차와 설정 예시로 해결합니다.Read more →