Published on2025년 12월 28일LoRA 학습 속도 2배 - kohya + bf16 + 8bit AdamWaikohya_ss에서 bf16 혼합정밀과 8bit AdamW를 조합해 LoRA 학습을 더 빠르고 안정적으로 돌리는 실전 설정을 정리합니다. 속도·VRAM·품질의 트레이드오프와 체크 포인트까지 함께 다룹니다.Read more →
Published on2025년 12월 28일Transformers 로컬 LLM 속도 2배 - FlashAttention2 적용aiHugging Face Transformers에서 FlashAttention2를 적용해 로컬 LLM 추론 속도를 크게 끌어올리는 방법을 정리합니다. 설치, 코드 변경, 흔한 오류와 성능 측정까지 실전 관점으로 다룹니다.Read more →
Published on2025년 12월 28일Transformers 로컬 LLM 로딩 OOM 9가지 해결aiHugging Face Transformers로 로컬 LLM을 로딩할 때 발생하는 OOM(Out Of Memory)을 9가지 실전 처방으로 정리합니다. VRAM/RAM 모두를 대상으로, 재현·진단·코드 레벨 해결책까지 한 번에 다룹니다.Read more →
Published on2025년 12월 27일AutoGPT 메모리 폭주 막기 - SQLite RAG 압축aiAutoGPT류 에이전트가 장기 실행 중 메모리가 비대해지는 원인을 분석하고, SQLite 기반 RAG 저장소에서 압축·요약·중복 제거로 토큰과 디스크를 동시에 줄이는 실전 설계를 정리합니다.Read more →
Published on2025년 12월 27일Claude Tool Use 400 에러 - JSON Schema 디버깅aiClaude Tool Use에서 400 Bad Request가 날 때 대부분은 tool JSON Schema의 미세한 불일치가 원인입니다. 자주 터지는 패턴을 체크리스트로 정리하고, 재현 가능한 최소 예제와 검증 코드를 통해 빠르게 원인을 좁히는 방법을 설명합니다.Read more →