Published on2026년 1월 6일Stable Diffusion LoRA 합성 후 품질 붕괴 해결 가이드aiLoRA를 합성(merge)한 뒤 얼굴이 뭉개지거나 스타일이 과도하게 튀는 ‘품질 붕괴’는 대부분 가중치 스케일, 베이스 불일치, 정밀도/클립/샘플러 설정 충돌에서 발생합니다. 원인별 체크리스트와 재현 가능한 해결 절차를 정리합니다.Read more →
Published on2026년 1월 6일Transformers 로컬 LLM 추론 2배 - flash-attn·KV캐시aiTransformers 기반 로컬 LLM 추론 속도를 체감 2배까지 끌어올리는 핵심은 attention 커널 최적화와 KV 캐시 운용입니다. flash-attn 적용, KV 캐시 설정, 측정/병목 진단까지 실무 관점으로 정리합니다.Read more →
Published on2026년 1월 6일Transformers 로컬 LLM 느림? FlashAttention2 적용법aiTransformers로 로컬 LLM을 돌릴 때 속도가 느린 원인을 짚고, FlashAttention2를 안전하게 적용하는 설치·코드·트러블슈팅을 정리합니다.Read more →
Published on2026년 1월 5일AutoGPT 무한루프·비용폭주 차단 가드레일 5가지aiAutoGPT류 에이전트는 자율성이 큰 만큼 무한루프와 토큰·툴 호출 비용 폭주가 쉽게 발생합니다. 실행 예산, 단계 제한, 툴 게이트, 상태/중복 방지, 관측성까지 5가지 가드레일로 안전장치를 구축하는 방법을 정리합니다.Read more →
Published on2026년 1월 5일AWS Bedrock InvokeModel 403·Throttling 해결 - IAM·VPC·쿼터aiBedrock InvokeModel 호출에서 자주 만나는 403(권한/정책/키)과 Throttling(쿼터/동시성) 문제를 IAM, VPC 엔드포인트, 서비스 쿼터 관점에서 빠르게 분해해 해결합니다.Read more →