Published on2026년 1월 8일Transformers 로컬 LLM 속도 2배 - KV캐시·PagedAttentionaiTransformers로 로컬 LLM을 돌릴 때 TPS가 안 나오는 병목을 KV 캐시와 PagedAttention 관점에서 분해하고, vLLM/FlashAttention 설정과 측정 방법까지 묶어 2배 가까이 끌어올리는 튜닝 체크리스트를 정리합니다.Read more →
Published on2026년 1월 8일Transformers 로컬 LLM OOM - 4bit+오프로딩ai로컬에서 Transformers로 LLM을 돌리다 OOM이 날 때, 4bit 양자화와 CPU/디스크 오프로딩으로 VRAM 한계를 넘기는 실전 설정을 정리합니다.Read more →
Published on2026년 1월 7일Claude/Bedrock Tool Use 400 ValidationException 해결aiAmazon Bedrock에서 Claude Tool Use 호출 시 400 ValidationException이 나는 대표 원인(스키마/메시지 포맷/툴 결과 매칭)을 정리하고, 실제로 바로 적용 가능한 요청 예제와 디버깅 체크리스트를 제공합니다.Read more →
Published on2026년 1월 7일EKS에서 503 Service Unavailable 원인 10분 진단aiEKS에서 503은 대개 백엔드가 없거나(엔드포인트 0), 헬스체크 불일치, 트래픽 경로(Network/LB) 단절에서 발생합니다. 10분 안에 원인을 좁히는 우선순위 체크리스트와 kubectl/AWS CLI 실전 명령을 정리합니다.Read more →
Published on2026년 1월 7일JWT kid 헤더 악용 방지 - JWK 키회전 검증 7단계techJWT 헤더의 `kid`를 악용한 키 선택 취약점을 막기 위해, JWK 키회전 환경에서 검증 로직을 7단계로 정리합니다. 캐시·백오프·알고리즘 고정까지 실무 체크리스트와 코드로 설명합니다.Read more →