Проекты

Здесь собраны мои продовые ML-проекты: от генеративного AI и рекомендаций до MLOps-инфраструктур и observability. В каждом кейсе - проблема, архитектура и реальный результат.

Голосовой AI для колл-центра

On-prem голосовой AI-оператор закрывает 72% звонков без человека за 0.96 с со снижением стоимости на 58%.

Клиент: NDA Сфера: FinTech

Проблема: 600 мест в контакт-центре, ожидание 9 минут, штрафы за SLA и новые требования AI Act, регламенты устаревают быстрее, чем успевают учить операторов.

Решение: On-prem стек со стримингом, каскадом моделей, оркестрацией и базой знаний. Правила безопасности и ручная эскалация.

Платформа оценки стоимости ML‑инференса

Внутренний инструмент для профилировки latency, throughput и $/req моделей в проде

Клиент: NDA Сфера: E-commerce

Проблема: Не было единого стандарта мониторинга: команды выкатывали модели как попало, GPU простаивали, latency плавало, затраты не считались.

Решение: Собрали платформу с Prometheus, Kubecost и Torch/ONNX-профилировкой - теперь видно latency, throughput, загрузку и $/req на уровне модели.

RAG-ассистент для каталога

MVP чат-поиск с автоматизацией деплоев, экспериментов и мониторинга качества

Клиент: NDA Сфера: E-commerce

Проблема: 30 % запросов без результатов, p95 latency 1.5 с, растущие расходы на облачный LLM

Решение: Гибридный поиск (вектор + BM25) с дообученным Mistral-7B, autoscaling в K8s и дешевым инференсом на 1 GPU

Антифрод-аналитика Telegram для медиапланов

Система детекции накрутки сокращает неэффективные расходы на 24% и автоматизирует проверку 100 каналов за 12 минут

Клиент: NDA Сфера: AdTech

Проблема: 30% рекламного бюджета теряется на каналах с накруткой, ручная проверка 100 каналов занимает 25 часов

Решение: Гибридная система детекции (rule-based + anomaly) с батч-обработкой и адаптивными порогами по тематикам

Система поиска и рекомендаций

Мультимодальная платформа поиска и рекомендаций с полным CI/CD-контуром, мониторингом и A/B-экспериментами

Клиент: NDA Сфера: E-commerce

Проблема: Высокая стоимость и p95 > 500 мс при поиске по 10M+ товаров в e-commerce

Решение: End-to-end архитектура c CLIP-энкодером, HNSW (FAISS), TensorRT-оптимизацией и canary A/B-деплоем