Игорь Якушев

обо мне

Строю ML‑системы под нагрузкой 10M+ запросов в день: RAG, GenAI, рекомендации, MLOps

Делаю так, чтобы ML‑продукты не ломались на трафике и создавали прирост к конверсии и выручке.

–37% latency

+18% к конверсии (inference)

99.9% SLA

на ~1 млн предсказаний в день

–42% cost per request

сохранив качество (BLEU)

Проекты

Мои кейсы

Проекты с задачами, архитектурой и метриками.

72% автоответов · −58% cost per call · CSAT +1.9

Голосовой AI-оператор для колл-центра

On-prem голосовой AI-оператор закрывает 72% звонков без человека за 0.96 с со снижением стоимости на 58%.

Llama 3.1 70B NF4 (TP=2, no-MIG)
Llama 3.1 8B INT4
Whisper v3 streaming
Llama Guard 2
Coqui XTTS
Riva FastPitch + HiFi-GAN
Temporal
Qdrant
Postgres (self-hosted, Supabase stack)
Redis Streams
Grafana LGTM

Проблема: 600 мест в контакт-центре, ожидание 9 минут, штрафы за SLA и новые требования AI Act, регламенты устаревают быстрее, чем успевают учить операторов.

Решение: On-prem стек со стримингом, каскадом моделей, оркестрацией и базой знаний. Правила безопасности и ручная эскалация.

Архитектура и метрики

−43% $/req · p99 latency стабилен

Платформа оценки latency и стоимости ML‑инференса

Внутренний инструмент для профилировки latency, throughput и $/req моделей в проде

PyTorch
ONNX
Prometheus
Grafana
Kubernetes
Torch Profiler
Kubecost
Triton Inference Server

9 % zero-result · +1.6 pp CTR · −45 % cost

RAG-ассистент для каталога

MVP чат-поиск с автоматизацией деплоев, экспериментов и мониторинга качества

Remix
FastAPI
Weaviate
Ray Serve
Mistral-7B

Посмотреть все

Задачи

С чем я работаю

Решаю инженерные bottleneck'и в ML-проде

MLOps‑инфраструктура

Когда ML растет быстрее инфраструктуры

Python
Kubernetes
MLflow
GitHub Actions
Docker
Terraform

CI/CD для ML: auto-deploy моделей с версионированием, деплой без даунтайма, метрики через Prometheus + OTel

GenAI / RAG‑системы

LLM-инференс без просадки по latency и бюджету

LangChain
FastAPI
Qdrant
OpenAI
Mistral
Weaviate

–42 % cost / req через async RAG и fallback-роутинг с кешем, latency ~1.2s (Qdrant, FastAPI)

Smart‑роутинг LLM‑запросов

LLM-инференс без слива бюджета на каждый запрос

OpenAI
Claude
Mistral
scikit-learn
FastAPI
Redis

до –50 % cost / req через scoring-классификатор (prompt length + tokens) и кеш ответов по semantic cache

Обо мне

Связываю ML, продукт и здравый смысл.

Я Игорь Якушев. Проектирую ML-решения, которые выдерживают трафик, экономят деньги и не ломаются в субботу ночью.

Начинал с маркетинга и бизнеса, пока не пришел к инженерии. Сейчас отвечаю за поиск и рекомендации на проде с 10+ млн запросов в сутки.

Мой фокус это системы, которые живут под нагрузкой, не ломаются и не требуют героя.

«make AI boring again»

ML-инженер · System design · Продуктовый подход

Подробнее обо мне

Связаться

Контакты

Готов к обсуждению ML‑проектов и внедрений, отвечаю лично.