MLOps‑инфраструктура
Когда ML растет быстрее инфраструктуры
- Python
- Kubernetes
- MLflow
- GitHub Actions
- Docker
- Terraform
CI/CD для ML: auto-deploy моделей с версионированием, деплой без даунтайма, метрики через Prometheus + OTel
Проектирую ML‑системы, которые работают на реальном трафике: поиск, генерация, рекомендации, ценообразование. Здесь мой путь от бизнеса к ML‑разработке.
Инженерное образование, которое я закончил в 2012, не дало великого откровения, но научило главному: разбирать сложное на части и искать закономерности.
В 20 лет стал работать внутри крупного государственного механизма и увидел, как решения зависят не от людей, а от регламентов, согласований и кучи бумаг.
На старте все делалось руками через чаты: правки по 10 кругов, дедлайны в Excel. Никакого трекинга, только "кто помнит, тот и прав". Когда команда выросла с 5 до 30+ человек, я охуел - половина времени уходила на тушение пожаров и пересылку задач между людьми.
Пришлось перепроектировать все. Разбил бизнес-процессы на четкие этапы, внедрил CRM и убрал ручные отчеты, заменив их скриптами. Чтобы быстрее проверять свои гипотезы, сам внедрял API и писал скрипты для сотрудников.
С переходом на системный подход рентабельность выросла на 22%, а количество просроченных задач в проектах упало почти до нуля.
Я понял: структура это сила, она масштабируется, люди - нет.
Все чаще стал писать код сам. В IT было то, чего мне не хватало в маркетинге - прозрачная логика. Есть вход, есть код, есть результат.
Понял, что развернуть агентскую модель не получится - начал собирать собственные it-проекты. Делал парсеры и ботов на Python, собирал сервисы, чтобы проверять, как связать данные из SQL, логику и автоматизацию в рабочую систему.
Мои запуски были инженерно-стартаперскими экспериментами: как устроена система, где она ломается, как упростить и масштабировать. Мне было важно только одно: чтобы технически все работало не один раз, а всегда.
Гайды тогда уже были, но разрозненные: Jupyter, Colab, статьи по TensorFlow. Попробовал собрать инфраструктуру вокруг и понял, что без системных знаний дальше не продвинуться.
Меня интересовала инженерная сторона ML и Data Science: как устроена инфраструктура, как модели проходят путь от обучения до продакшна.
Чтобы разобраться в этом на практике, гонял мини-сервисы на Heroku, но увидел предел: хотелось понять, как держатся системы с большим трафиком, где сбой стоит денег. Решил идти за знаниями Big Tech. В тот момент технических вакансий не было, но опыт в маркетинге дал возможность зайти через Google, где я отвечал за маркетинговую аналитику и цифровые продукты.
Внутри я прошел ML-программы - сначала теоретически, потом на продовых инструментах. Отсюда и первый опыт с BigQuery, пайплайны на Airflow, тестировал TFX. Разбирался, как устроены реальные системы: деплой, логирование, требования к стабильности. Это дало фундамент для системного подхода к ML-инфраструктуре.
С мая 2022 отвечал за ML-цепочку в B2B-платформе. Строил модули для ценообразования, генерации описаний и прогноза спроса на XGBoost и Scikit-learn. Спроектировал end-to-end пайплайн с auto-retrain, fallback и сквозным мониторингом, обеспечил SLA 99.9 % при ~1 млн предсказаний в сутки.
В 2023 присоединился к команде инженеров AI-платформы для e-commerce. Работал над архитектурой мультимодального поиска и рекомендаций: от выращивания эмбеддингов до онлайн-ранжирования.
Под капотом CLIP-модели и LLM превращают текст и изображение запроса в унифицированные векторы, быстрый FAISS-индекс поднимает кандидатов, а сверху их доранжирует гибрид BM25 + нейросеть.
Реализовал онлайн-дообучение на кликах: CTR вырос на 14 %, инфраструктурные затраты упали на 30 %.
Фокус на платформенной архитектуре для ML-продуктов: автообновляемые пайплайны, наблюдаемость, отказоустойчивость. Я строю так, чтобы инженер не затыкал баги.
Финальный тест для архитектуры когда она работает, даже если ты в отпуске.
Где применяли мой опыт
Задачи
Решаю инженерные bottleneck'и в ML-проде
Когда ML растет быстрее инфраструктуры
CI/CD для ML: auto-deploy моделей с версионированием, деплой без даунтайма, метрики через Prometheus + OTel
LLM-инференс без просадки по latency и бюджету
–42 % cost / req через async RAG и fallback-роутинг с кешем, latency ~1.2s (Qdrant, FastAPI)
Поведенческая персонализация с real-time откликом
Real-time recsys: embedding + GBDT, кеши (Kafka, Redis), feature pipeline на базе own store
LLM-инференс без слива бюджета на каждый запрос
до –50 % cost / req через scoring-классификатор (prompt length + tokens) и кеш ответов по semantic cache
Проекты
Проекты с задачами, архитектурой и метриками.
−43% $/req · p99 latency стабилен
Внутренний инструмент для профилировки latency, throughput и $/req моделей в проде
9 % zero-result · +1.6 pp CTR · −45 % cost
MVP чат-поиск с автоматизацией деплоев, экспериментов и мониторинга качества
−33% $/QPS при 300 QPS · +54% CTR
Мультимодальная платформа поиска и рекомендаций с полным CI/CD-контуром, мониторингом и A/B-экспериментами
Связаться
Готов к обсуждению ML‑проектов и внедрений, отвечаю лично.
Решения с упором на продукт и System Design. Меня привлекают задачи с потенциалом системного роста.
Быстрее всего
Написать в Telegram