Обо мне

Проектирую ML‑системы, которые работают на реальном трафике: поиск, генерация, рекомендации, ценообразование. Здесь мой путь от бизнеса к ML‑разработке.

2010–2013

Мышление

У меня никогда не было мечты “стать программистом”. Меня интересовали системы и почему они работают именно так.

Инженерное образование, которое я закончил в 2012, не дало великого откровения, но научило главному: разбирать сложное на части и искать закономерности.

В 20 лет стал работать внутри крупного государственного механизма и увидел, как решения зависят не от людей, а от регламентов, согласований и кучи бумаг.

Эффективность возникает из структуры, а не из старания
2013–2016

Собрал бизнес

Я запустил агентство в сфере digital-маркетинга и довольно быстро оказался в точке, где рост начал поедать эффективность.

На старте все делалось руками через чаты: правки по 10 кругов, дедлайны в Excel. Никакого трекинга, только "кто помнит, тот и прав". Когда команда выросла с 5 до 30+ человек, я охуел - половина времени уходила на тушение пожаров и пересылку задач между людьми.

Пришлось перепроектировать все. Разбил бизнес-процессы на четкие этапы, внедрил CRM и убрал ручные отчеты, заменив их скриптами. Чтобы быстрее проверять свои гипотезы, сам внедрял API и писал скрипты для сотрудников.

С переходом на системный подход рентабельность выросла на 22%, а количество просроченных задач в проектах упало почти до нуля.

Я понял: структура это сила, она масштабируется, люди - нет.

Управлял сложностью через структуру, не людей
Кодил, чтобы убрать зависимость от рук
2016–2019

От бизнеса к коду

Рынок digital смещался в сторону рекомендательных систем, Big Data и автоматизации. Я видел, что за этим будущее, и пытался перестроить агентство под разработку: брали стартапы, собирали продуктовые сайты, заходили в аутстафф.

Все чаще стал писать код сам. В IT было то, чего мне не хватало в маркетинге - прозрачная логика. Есть вход, есть код, есть результат.

Понял, что развернуть агентскую модель не получится - начал собирать собственные it-проекты. Делал парсеры и ботов на Python, собирал сервисы, чтобы проверять, как связать данные из SQL, логику и автоматизацию в рабочую систему.

Мои запуски были инженерно-стартаперскими экспериментами: как устроена система, где она ломается, как упростить и масштабировать. Мне было важно только одно: чтобы технически все работало не один раз, а всегда.

Ушел к системам, где результат зависит от логики, а не вкуса
Сформировал подход: работает - значит не ломается, даже без меня
2019–2021

Прыжок в ML

В 2019 я собрал первую ML-модель из говна, палок и форумных датасетов. Это была нейросеть на Keras, генерирующая музыку. Работала коряво, но главное - генерировала сама.

Гайды тогда уже были, но разрозненные: Jupyter, Colab, статьи по TensorFlow. Попробовал собрать инфраструктуру вокруг и понял, что без системных знаний дальше не продвинуться.

Меня интересовала инженерная сторона ML и Data Science: как устроена инфраструктура, как модели проходят путь от обучения до продакшна.

Чтобы разобраться в этом на практике, гонял мини-сервисы на Heroku, но увидел предел: хотелось понять, как держатся системы с большим трафиком, где сбой стоит денег. Решил идти за знаниями Big Tech. В тот момент технических вакансий не было, но опыт в маркетинге дал возможность зайти через Google, где я отвечал за маркетинговую аналитику и цифровые продукты.

Внутри я прошел ML-программы - сначала теоретически, потом на продовых инструментах. Отсюда и первый опыт с BigQuery, пайплайны на Airflow, тестировал TFX. Разбирался, как устроены реальные системы: деплой, логирование, требования к стабильности. Это дало фундамент для системного подхода к ML-инфраструктуре.

ML без инфраструктуры - игрушка
Фокус: проектировать решения, которые работают под нагрузкой
2021–2024

ML в проде

Google закрыл офис. Предложили релокацию, но снова в маркетинг, отказался: хочу не обслуживать ML, а отвечать за архитектуру и прод.

С мая 2022 отвечал за ML-цепочку в B2B-платформе. Строил модули для ценообразования, генерации описаний и прогноза спроса на XGBoost и Scikit-learn. Спроектировал end-to-end пайплайн с auto-retrain, fallback и сквозным мониторингом, обеспечил SLA 99.9 % при ~1 млн предсказаний в сутки.

В 2023 присоединился к команде инженеров AI-платформы для e-commerce. Работал над архитектурой мультимодального поиска и рекомендаций: от выращивания эмбеддингов до онлайн-ранжирования.

Под капотом CLIP-модели и LLM превращают текст и изображение запроса в унифицированные векторы, быстрый FAISS-индекс поднимает кандидатов, а сверху их доранжирует гибрид BM25 + нейросеть.

Реализовал онлайн-дообучение на кликах: CTR вырос на 14 %, инфраструктурные затраты упали на 30 %.

2024–сейчас

Архитектура, которой доверяют

Сейчас отвечаю за поиск и рекомендации в e-commerce с трафиком 10 млн запросов в сутки. Инференс на Triton, Faiss + CLIP, rerank BM25, recsys в ONNX. Любая ошибка это минус в выручке.

Фокус на платформенной архитектуре для ML-продуктов: автообновляемые пайплайны, наблюдаемость, отказоустойчивость. Я строю так, чтобы инженер не затыкал баги.

Финальный тест для архитектуры когда она работает, даже если ты в отпуске.

Где применяли мой опыт

Google ViSenze Ozon Huawei Media Instinct

Задачи

С чем я работаю

Решаю инженерные bottleneck'и в ML-проде

MLOps‑инфраструктура

Когда ML растет быстрее инфраструктуры

  • Python
  • Kubernetes
  • MLflow
  • GitHub Actions
  • Docker
  • Terraform

CI/CD для ML: auto-deploy моделей с версионированием, деплой без даунтайма, метрики через Prometheus + OTel

GenAI / RAG‑системы

LLM-инференс без просадки по latency и бюджету

  • LangChain
  • FastAPI
  • Qdrant
  • OpenAI
  • Mistral
  • Weaviate

–42 % cost / req через async RAG и fallback-роутинг с кешем, latency ~1.2s (Qdrant, FastAPI)

Рекомендательные механизмы

Поведенческая персонализация с real-time откликом

  • PyTorch
  • Faiss
  • Kafka
  • Redis
  • LightGBM
  • Feature Store

Real-time recsys: embedding + GBDT, кеши (Kafka, Redis), feature pipeline на базе own store

Smart‑роутинг LLM‑запросов

LLM-инференс без слива бюджета на каждый запрос

  • OpenAI
  • Claude
  • Mistral
  • scikit-learn
  • FastAPI
  • Redis

до –50 % cost / req через scoring-классификатор (prompt length + tokens) и кеш ответов по semantic cache

Проекты

Мои кейсы

Проекты с задачами, архитектурой и метриками.

−43% $/req · p99 latency стабилен

Платформа оценки latency и стоимости ML‑инференса

Внутренний инструмент для профилировки latency, throughput и $/req моделей в проде

  • PyTorch
  • ONNX
  • Prometheus
  • Grafana
  • Kubernetes
  • Torch Profiler
  • Kubecost
  • Triton Inference Server
Проблема: Не было единого стандарта мониторинга: команды выкатывали модели как попало, GPU простаивали, latency плавало, затраты не считались.
Решение: Собрали платформу с Prometheus, Kubecost и Torch/ONNX-профилировкой — теперь видно latency, throughput, загрузку и $/req на уровне модели.

9 % zero-result · +1.6 pp CTR · −45 % cost

RAG-ассистент для каталога

MVP чат-поиск с автоматизацией деплоев, экспериментов и мониторинга качества

  • Remix
  • FastAPI
  • Weaviate
  • Ray Serve
  • Mistral-7B

−33% $/QPS при 300 QPS · +54% CTR

Система поиска и рекомендаций

Мультимодальная платформа поиска и рекомендаций с полным CI/CD-контуром, мониторингом и A/B-экспериментами

  • FastAPI
  • FAISS-HNSW
  • Triton + TensorRT
  • Terraform
  • Helm/K8s

Связаться

Контакты

Готов к обсуждению ML‑проектов и внедрений, отвечаю лично.

Игорь Якушев,
ML-инженер

Фото Игоря Якушева, ML-инженера обо мне
1 слот открыт для проекта на июнь

Решения с упором на продукт и System Design. Меня привлекают задачи с потенциалом системного роста.

Как начать разговор:

  1. 1. Напишите мне напрямую Свяжитесь так, как удобно вам: Telegram, email или LinkedIn.
  2. 2. Расскажите о задаче Пара строк: контекст, цель, формат - этого достаточно.
  3. 3. Если вижу, что могу помочь, договоримся о старте Предложу следующий шаг.

Быстрее всего

Написать в Telegram