Игорь Якушев

Фото Игоря Якушева, ML-инженера обо мне

Строю ML‑системы под нагрузкой 10M+ запросов в день: RAG, GenAI, рекомендации, MLOps

–37% latency

+18% к конверсии (inference)

99.9% SLA

на ~1 млн предсказаний в день

–42% cost per request

сохранив качество (BLEU)

ViSenze – AI-платформа для визуального поиска e-commerce Huawei – телеком и инфраструктура Ozon – маркетплейс и e-commerce Google – глобальный лидер в ML Media Instinct – маркетинговое агентство

Проекты

Мои кейсы

Проекты с задачами, архитектурой и метриками.

72% автоответов · −58% cost per call · CSAT +1.9

Голосовой AI-оператор для колл-центра

On-prem голосовой AI-оператор закрывает 72% звонков без человека за 0.96 с со снижением стоимости на 58%.

  • Llama 3.1 70B NF4 (TP=2, no-MIG)
  • Llama 3.1 8B INT4
  • Whisper v3 streaming
  • Llama Guard 2
  • Coqui XTTS
  • Riva FastPitch + HiFi-GAN
  • Temporal
  • Qdrant
  • Postgres (self-hosted, Supabase stack)
  • Redis Streams
  • Grafana LGTM
Проблема: 600 мест в контакт-центре, ожидание 9 минут, штрафы за SLA и новые требования AI Act, регламенты устаревают быстрее, чем успевают учить операторов.
Решение: On-prem стек со стримингом, каскадом моделей, оркестрацией и базой знаний. Правила безопасности и ручная эскалация.

9 % zero-result · +1.6 pp CTR · −45 % cost

RAG-ассистент для каталога

MVP чат-поиск с автоматизацией деплоев, экспериментов и мониторинга качества

  • Remix
  • FastAPI
  • Weaviate
  • Ray Serve
  • Mistral-7B

Задачи

С чем я работаю

Решаю инженерные bottleneck'и в ML-проде

MLOps‑инфраструктура

Когда ML растет быстрее инфраструктуры

  • Python
  • Kubernetes
  • MLflow
  • GitHub Actions
  • Docker
  • Terraform

CI/CD для ML: auto-deploy моделей с версионированием, деплой без даунтайма, метрики через Prometheus + OTel

GenAI / RAG‑системы

LLM-инференс без просадки по latency и бюджету

  • LangChain
  • FastAPI
  • Qdrant
  • OpenAI
  • Mistral
  • Weaviate

–42 % cost / req через async RAG и fallback-роутинг с кешем, latency ~1.2s (Qdrant, FastAPI)

Рекомендательные механизмы

Поведенческая персонализация с real-time откликом

  • PyTorch
  • Faiss
  • Kafka
  • Redis
  • LightGBM
  • Feature Store

Real-time recsys: embedding + GBDT, кеши (Kafka, Redis), feature pipeline на базе own store

Smart‑роутинг LLM‑запросов

LLM-инференс без слива бюджета на каждый запрос

  • OpenAI
  • Claude
  • Mistral
  • scikit-learn
  • FastAPI
  • Redis

до –50 % cost / req через scoring-классификатор (prompt length + tokens) и кеш ответов по semantic cache

Обо мне

Обо мне

Связываю ML, продукт и здравый смысл.

Игорь Якушев

Я Игорь Якушев. Проектирую ML-решения, которые выдерживают трафик, экономят деньги и не ломаются в субботу ночью.

Начинал с маркетинга и бизнеса, пока не пришел к инженерии. Сейчас отвечаю за поиск и рекомендации на проде с 10+ млн запросов в сутки.

Мой фокус это системы, которые живут под нагрузкой, не ломаются и не требуют героя.

«make AI boring again»

ML-инженер · System design · Продуктовый подход

Подробнее обо мне

Связаться

Контакты

Готов к обсуждению ML‑проектов и внедрений, отвечаю лично.

Игорь Якушев,
ML-инженер

Фото Игоря Якушева, ML-инженера обо мне
1 слот открыт для проекта на октябрь

Решения с упором на продукт и System Design. Меня привлекают задачи с потенциалом системного роста.

Как начать разговор:

  1. 1. Напишите мне напрямую Свяжитесь так, как удобно вам: Telegram, email или LinkedIn.
  2. 2. Расскажите о задаче Пара строк: контекст, цель, формат - этого достаточно.
  3. 3. Если вижу, что могу помочь, договоримся о старте Предложу следующий шаг.

Быстрее всего

Написать в Telegram