All Posts

  • Published on
    ONNX Runtime의 QDQ(Quantize/DeQuantize) 양자화로 CPU 추론 성능을 2배 수준까지 끌어올리는 실전 절차를 정리합니다. 정확도 하락을 통제하면서 INT8 경로를 안정적으로 태우는 체크리스트와 코드까지 포함합니다.
  • Published on
    PyTorch 2.0 기반 PTQ(Post-Training Quantization)로 LLM을 4bit로 줄이는 실전 절차를 정리합니다. 정확도-지연시간-메모리 트레이드오프를 측정하고, 흔한 함정과 디버깅 포인트까지 함께 다룹니다.
  • Published on
    useTransition의 isPending이 끝나지 않거나 UI가 깜빡이는 문제는 대개 전환 범위 오남용, 상태 루프, Suspense 경계 설계, 비동기 작업 위치 문제에서 발생합니다. 재현 패턴별로 원인과 안전한 수정 방법을 코드로 정리합니다.