Игорь Якушев

Фото Игоря Якушева, ML-инженера обо мне

Строю ML‑системы под нагрузкой 10M+ запросов в день: RAG, GenAI, рекомендации, MLOps

–37% latency

+18% к конверсии (inference)

99.9% SLA

на ~1 млн предсказаний в день

–42% cost per request

сохранив качество (BLEU)

ViSenze – AI-платформа для визуального поиска e-commerce Huawei – телеком и инфраструктура Ozon – маркетплейс и e-commerce Google – глобальный лидер в ML Media Instinct – маркетинговое агентство

Задачи

С чем я работаю

Решаю инженерные bottleneck'и в ML-проде

MLOps‑инфраструктура

Когда ML растет быстрее инфраструктуры

  • Python
  • Kubernetes
  • MLflow
  • GitHub Actions
  • Docker
  • Terraform

CI/CD для ML: auto-deploy моделей с версионированием, деплой без даунтайма, метрики через Prometheus + OTel

GenAI / RAG‑системы

LLM-инференс без просадки по latency и бюджету

  • LangChain
  • FastAPI
  • Qdrant
  • OpenAI
  • Mistral
  • Weaviate

–42 % cost / req через async RAG и fallback-роутинг с кешем, latency ~1.2s (Qdrant, FastAPI)

Рекомендательные механизмы

Поведенческая персонализация с real-time откликом

  • PyTorch
  • Faiss
  • Kafka
  • Redis
  • LightGBM
  • Feature Store

Real-time recsys: embedding + GBDT, кеши (Kafka, Redis), feature pipeline на базе own store

Smart‑роутинг LLM‑запросов

LLM-инференс без слива бюджета на каждый запрос

  • OpenAI
  • Claude
  • Mistral
  • scikit-learn
  • FastAPI
  • Redis

до –50 % cost / req через scoring-классификатор (prompt length + tokens) и кеш ответов по semantic cache

Проекты

Мои кейсы

Проекты с задачами, архитектурой и метриками.

−43% $/req · p99 latency стабилен

Платформа оценки latency и стоимости ML‑инференса

Внутренний инструмент для профилировки latency, throughput и $/req моделей в проде

  • PyTorch
  • ONNX
  • Prometheus
  • Grafana
  • Kubernetes
  • Torch Profiler
  • Kubecost
  • Triton Inference Server
Проблема: Не было единого стандарта мониторинга: команды выкатывали модели как попало, GPU простаивали, latency плавало, затраты не считались.
Решение: Собрали платформу с Prometheus, Kubecost и Torch/ONNX-профилировкой — теперь видно latency, throughput, загрузку и $/req на уровне модели.

9 % zero-result · +1.6 pp CTR · −45 % cost

RAG-ассистент для каталога

MVP чат-поиск с автоматизацией деплоев, экспериментов и мониторинга качества

  • Remix
  • FastAPI
  • Weaviate
  • Ray Serve
  • Mistral-7B

−33% $/QPS при 300 QPS · +54% CTR

Система поиска и рекомендаций

Мультимодальная платформа поиска и рекомендаций с полным CI/CD-контуром, мониторингом и A/B-экспериментами

  • FastAPI
  • FAISS-HNSW
  • Triton + TensorRT
  • Terraform
  • Helm/K8s

Обо мне

Обо мне

Связываю ML, продукт и здравый смысл.

Игорь Якушев

Я Игорь Якушев. Проектирую ML-решения, которые выдерживают трафик, экономят деньги и не ломаются в субботу ночью.

Начинал с маркетинга и бизнеса, пока не пришел к инженерии. Сейчас отвечаю за поиск и рекомендации на проде с 10+ млн запросов в сутки.

Мой фокус это системы, которые живут под нагрузкой, не ломаются и не требуют героя.

«make AI boring again»

ML-инженер · System design · Продуктовый подход

Подробнее обо мне

Связаться

Контакты

Готов к обсуждению ML‑проектов и внедрений, отвечаю лично.

Игорь Якушев,
ML-инженер

Фото Игоря Якушева, ML-инженера обо мне
1 слот открыт для проекта на июнь

Решения с упором на продукт и System Design. Меня привлекают задачи с потенциалом системного роста.

Как начать разговор:

  1. 1. Напишите мне напрямую Свяжитесь так, как удобно вам: Telegram, email или LinkedIn.
  2. 2. Расскажите о задаче Пара строк: контекст, цель, формат - этого достаточно.
  3. 3. Если вижу, что могу помочь, договоримся о старте Предложу следующий шаг.

Быстрее всего

Написать в Telegram