Обо мне

Проектирую ML‑системы, которые работают на реальном трафике: поиск, генерация, рекомендации, ценообразование. Здесь мой путь от бизнеса к ML‑разработке.

2010–2013

2013–2016

2016–2019

2019–2021

2021–2024

2024–сейчас

2010–2013

Мышление

У меня никогда не было мечты “стать программистом”. Меня интересовали системы и почему они работают именно так.

Инженерное образование, которое я закончил в 2012, не дало великого откровения, но научило главному: разбирать сложное на части и искать закономерности.

В 20 лет стал работать внутри крупного государственного механизма и увидел, как решения зависят не от людей, а от регламентов, согласований и кучи бумаг.

Эффективность возникает из структуры, а не из старания

2013–2016

Собрал бизнес

Я запустил агентство в сфере digital-маркетинга и довольно быстро оказался в точке, где рост начал поедать эффективность.

На старте все делалось руками через чаты: правки по 10 кругов, дедлайны в Excel. Никакого трекинга, только "кто помнит, тот и прав". Когда команда выросла с 5 до 30+ человек, я охуел - половина времени уходила на тушение пожаров и пересылку задач между людьми.

Пришлось перепроектировать все. Разбил бизнес-процессы на четкие этапы, внедрил CRM и убрал ручные отчеты, заменив их скриптами. Чтобы быстрее проверять свои гипотезы, сам внедрял API и писал скрипты для сотрудников.

С переходом на системный подход рентабельность выросла на 22%, а количество просроченных задач в проектах упало почти до нуля.

Я понял: структура это сила, она масштабируется, люди - нет.

Управлял сложностью через структуру, не людей

Кодил, чтобы убрать зависимость от рук

2016–2019

От бизнеса к коду

Рынок digital смещался в сторону рекомендательных систем, Big Data и автоматизации. Я видел, что за этим будущее, и пытался перестроить агентство под разработку: брали стартапы, собирали продуктовые сайты, заходили в аутстафф.

Все чаще стал писать код сам. В IT было то, чего мне не хватало в маркетинге - прозрачная логика. Есть вход, есть код, есть результат.

Понял, что развернуть агентскую модель не получится - начал собирать собственные it-проекты. Делал парсеры и ботов на Python, собирал сервисы, чтобы проверять, как связать данные из SQL, логику и автоматизацию в рабочую систему.

Мои запуски были инженерно-стартаперскими экспериментами: как устроена система, где она ломается, как упростить и масштабировать. Мне было важно только одно: чтобы технически все работало не один раз, а всегда.

Ушел к системам, где результат зависит от логики, а не вкуса

Сформировал подход: работает - значит не ломается, даже без меня

2019–2021

Прыжок в ML

В 2019 я собрал первую ML-модель из говна, палок и форумных датасетов. Это была нейросеть на Keras, генерирующая музыку. Работала коряво, но главное - генерировала сама.

Гайды тогда уже были, но разрозненные: Jupyter, Colab, статьи по TensorFlow. Попробовал собрать инфраструктуру вокруг и понял, что без системных знаний дальше не продвинуться.

Меня интересовала инженерная сторона ML и Data Science: как устроена инфраструктура, как модели проходят путь от обучения до продакшна.

Чтобы разобраться в этом на практике, гонял мини-сервисы на Heroku, но увидел предел: хотелось понять, как держатся системы с большим трафиком, где сбой стоит денег. Решил идти за знаниями Big Tech. В тот момент технических вакансий не было, но опыт в маркетинге дал возможность зайти через Google, где я отвечал за маркетинговую аналитику и цифровые продукты.

Внутри я прошел ML-программы - сначала теоретически, потом на продовых инструментах. Отсюда и первый опыт с BigQuery, пайплайны на Airflow, тестировал TFX. Разбирался, как устроены реальные системы: деплой, логирование, требования к стабильности. Это дало фундамент для системного подхода к ML-инфраструктуре.

ML без инфраструктуры - игрушка

Фокус: проектировать решения, которые работают под нагрузкой

2021–2024

ML в проде

Google закрыл офис. Предложили релокацию, но снова в маркетинг, отказался: хочу не обслуживать ML, а отвечать за архитектуру и прод.

С мая 2022 отвечал за ML-цепочку в B2B-платформе. Строил модули для ценообразования, генерации описаний и прогноза спроса на XGBoost и Scikit-learn. Спроектировал end-to-end пайплайн с auto-retrain, fallback и сквозным мониторингом, обеспечил SLA 99.9 % при ~1 млн предсказаний в сутки.

В 2023 присоединился к команде инженеров AI-платформы для e-commerce. Работал над архитектурой мультимодального поиска и рекомендаций: от выращивания эмбеддингов до онлайн-ранжирования.

Под капотом CLIP-модели и LLM превращают текст и изображение запроса в унифицированные векторы, быстрый FAISS-индекс поднимает кандидатов, а сверху их доранжирует гибрид BM25 + нейросеть.

Реализовал онлайн-дообучение на кликах: CTR вырос на 14 %, инфраструктурные затраты упали на 30 %.

2024–сейчас

Архитектура, которой доверяют

Сейчас отвечаю за поиск и рекомендации в e-commerce с трафиком 10 млн запросов в сутки. Инференс на Triton, Faiss + CLIP, rerank BM25, recsys в ONNX. Любая ошибка это минус в выручке.

Фокус на платформенной архитектуре для ML-продуктов: автообновляемые пайплайны, наблюдаемость, отказоустойчивость. Я строю так, чтобы инженер не затыкал баги.

Финальный тест для архитектуры когда она работает, даже если ты в отпуске.

Системное мышлениеЛогикаОтветственностьРеалистичностьАрхитектура системы

УправляемостьНадежностьРациональностьМасштабируемостьСамодостаточность системАрхитектура под нагрузкой

ДекомпозицияАвтоматизацияСистемный дизайнТестирование гипотезПрототипированиеПрагматизм

Где применяли мой опыт

Задачи

С чем я работаю

Решаю инженерные bottleneck'и в ML-проде

MLOps‑инфраструктура

Когда ML растет быстрее инфраструктуры

Python
Kubernetes
MLflow
GitHub Actions
Docker
Terraform

CI/CD для ML: auto-deploy моделей с версионированием, деплой без даунтайма, метрики через Prometheus + OTel

GenAI / RAG‑системы

LLM-инференс без просадки по latency и бюджету

LangChain
FastAPI
Qdrant
OpenAI
Mistral
Weaviate

–42 % cost / req через async RAG и fallback-роутинг с кешем, latency ~1.2s (Qdrant, FastAPI)

Smart‑роутинг LLM‑запросов

LLM-инференс без слива бюджета на каждый запрос

OpenAI
Claude
Mistral
scikit-learn
FastAPI
Redis

до –50 % cost / req через scoring-классификатор (prompt length + tokens) и кеш ответов по semantic cache

Проекты

Мои кейсы

Проекты с задачами, архитектурой и метриками.

−43% $/req · p99 latency стабилен

Платформа оценки latency и стоимости ML‑инференса

Внутренний инструмент для профилировки latency, throughput и $/req моделей в проде

PyTorch
ONNX
Prometheus
Grafana
Kubernetes
Torch Profiler
Kubecost
Triton Inference Server

Проблема: Не было единого стандарта мониторинга: команды выкатывали модели как попало, GPU простаивали, latency плавало, затраты не считались.

Решение: Собрали платформу с Prometheus, Kubecost и Torch/ONNX-профилировкой — теперь видно latency, throughput, загрузку и $/req на уровне модели.

Архитектура и метрики

9 % zero-result · +1.6 pp CTR · −45 % cost

RAG-ассистент для каталога

MVP чат-поиск с автоматизацией деплоев, экспериментов и мониторинга качества

Remix
FastAPI
Weaviate
Ray Serve
Mistral-7B

−33% $/QPS при 300 QPS · +54% CTR

Система поиска и рекомендаций

Мультимодальная платформа поиска и рекомендаций с полным CI/CD-контуром, мониторингом и A/B-экспериментами

FastAPI
FAISS-HNSW
Triton + TensorRT
Terraform
Helm/K8s

Посмотреть все

Связаться

Контакты

Готов к обсуждению ML‑проектов и внедрений, отвечаю лично.

Игорь Якушев,
ML-инженер

обо мне

1 слот открыт для проекта на июнь

Решения с упором на продукт и System Design. Меня привлекают задачи с потенциалом системного роста.

Как начать разговор:

1. Напишите мне напрямую Свяжитесь так, как удобно вам: Telegram, email или LinkedIn.
2. Расскажите о задаче Пара строк: контекст, цель, формат - этого достаточно.
3. Если вижу, что могу помочь, договоримся о старте Предложу следующий шаг.

Быстрее всего

Написать в Telegram