
−43% $/req · p99 latency стабилен
Платформа оценки latency и стоимости ML‑инференса
Внутренний инструмент для профилировки latency, throughput и $/req моделей в проде
- PyTorch
- ONNX
- Prometheus
- Grafana
- Kubernetes
- Torch Profiler
- Kubecost
- Triton Inference Server
- Проблема: Не было единого стандарта мониторинга: команды выкатывали модели как попало, GPU простаивали, latency плавало, затраты не считались.
- Решение: Собрали платформу с Prometheus, Kubecost и Torch/ONNX-профилировкой — теперь видно latency, throughput, загрузку и $/req на уровне модели.