Published on2026년 2월 4일PyTorch→ONNX→TensorRT FP8 양자화 트러블슈팅aiPyTorch 모델을 ONNX로 내보낸 뒤 TensorRT에서 FP8로 양자화할 때 자주 터지는 변환·빌드·정확도·성능 이슈를 원인별로 정리하고, 재현/진단/해결 코드를 함께 제공합니다.Read more →
Published on2026년 2월 4일Qdrant RAG 검색 느림? HNSW·Payload 인덱스 튜닝aiQdrant 기반 RAG에서 검색 지연이 커질 때, HNSW 파라미터와 Payload 인덱스를 어떻게 조합해 지연시간을 줄이고 정확도를 유지하는지 실무 관점에서 정리합니다.Read more →
Published on2026년 2월 4일Ray Serve+KServe로 LLM 롤링배포·A/B 테스트aiRay Serve의 유연한 라우팅과 KServe의 Kubernetes 표준 배포 모델을 결합해 LLM을 롤링 배포하고 A/B 테스트를 운영하는 방법을 정리합니다. 트래픽 분산, 관측, 롤백, 장애 대응까지 실무 관점으로 다룹니다.Read more →
Published on2026년 2월 4일SageMaker 엔드포인트 5xx·타임아웃 원인 9가지aiSageMaker 실시간 엔드포인트에서 5xx와 타임아웃이 발생하는 대표 원인 9가지를 증상별로 분류하고, CloudWatch 로그·지표로 재현/진단하는 실전 체크리스트를 정리합니다.Read more →
Published on2026년 2월 4일SDXL LoRA 학습 OOM·느림 해결 - xFormers·8bit·캐시aiSDXL LoRA 학습에서 흔한 OOM과 학습 속도 저하를 xFormers 메모리 효율 어텐션, 8bit 옵티마이저, VAE/텍스트 인코더 캐시로 해결하는 실전 체크리스트를 정리합니다.Read more →