Published on2026년 1월 5일Spring Boot 3 가상스레드 적용 후 p99 튜닝techSpring Boot 3에서 가상스레드를 적용한 뒤 p99 지연이 오히려 나빠지는 흔한 원인을 짚고, 측정-병목 분리-커넥션/풀/GC/타임아웃까지 p99 중심으로 튜닝하는 방법을 정리합니다.Read more →
Published on2026년 1월 5일Spring Security OAuth2 로그인 401·invalid_token 해결techSpring Security OAuth2 로그인에서 401과 invalid_token이 반복될 때, 토큰 발급/검증 경계와 설정 불일치(issuer, audience, clock skew, JWK, redirect URI)를 체계적으로 진단하고 확실히 고치는 방법을 정리합니다.Read more →
Published on2026년 1월 5일Transformers 로컬 LLM CUDA OOM·속도 튜닝aiTransformers로 로컬 LLM을 돌릴 때 가장 흔한 CUDA OOM 원인(가중치·KV 캐시·프래그멘테이션)을 분해하고, 메모리 절감과 추론 속도 개선을 동시에 달성하는 실전 튜닝 레시피를 정리합니다.Read more →
Published on2026년 1월 5일Transformers 로컬 LLM OOM 방지 - 4bit+KV 캐시ai로컬 GPU에서 Transformers로 LLM을 돌릴 때 가장 흔한 OOM 원인을 4bit 양자화와 KV 캐시 최적화 관점에서 정리합니다. 실제 코드와 함께 메모리 계산법, 흔한 함정, 안정적인 설정 조합을 제공합니다.Read more →
Published on2026년 1월 4일AutoGPT 메모리 폭주? 벡터DB로 비용 절감aiAutoGPT가 오래 돌수록 메모리·토큰 비용이 폭주하는 이유를 짚고, 벡터DB 기반 장기기억으로 컨텍스트를 압축해 비용을 절감하는 설계를 정리합니다.Read more →