Проекты

Здесь собраны мои продовые ML-проекты: от генеративного AI и рекомендаций до MLOps-инфраструктур и observability. В каждом кейсе - проблема, архитектура и реальный результат.

72% автоответов · −58% cost per call · CSAT +1.9

Голосовой AI-оператор для колл-центра

On-prem голосовой AI-оператор закрывает 72% звонков без человека за 0.96 с со снижением стоимости на 58%.

  • Llama 3.1 70B NF4 (TP=2, no-MIG)
  • Llama 3.1 8B INT4
  • Whisper v3 streaming
  • Llama Guard 2
  • Coqui XTTS
  • Riva FastPitch + HiFi-GAN
  • Temporal
  • Qdrant
  • Postgres (self-hosted, Supabase stack)
  • Redis Streams
  • Grafana LGTM
Проблема: 600 мест в контакт-центре, ожидание 9 минут, штрафы за SLA и новые требования AI Act, регламенты устаревают быстрее, чем успевают учить операторов.
Решение: On-prem стек со стримингом, каскадом моделей, оркестрацией и базой знаний. Правила безопасности и ручная эскалация.

−43% $/req · p99 latency стабилен

Платформа оценки latency и стоимости ML‑инференса

Внутренний инструмент для профилировки latency, throughput и $/req моделей в проде

  • PyTorch
  • ONNX
  • Prometheus
  • Grafana
  • Kubernetes
  • Torch Profiler
  • Kubecost
  • Triton Inference Server
Проблема: Не было единого стандарта мониторинга: команды выкатывали модели как попало, GPU простаивали, latency плавало, затраты не считались.
Решение: Собрали платформу с Prometheus, Kubecost и Torch/ONNX-профилировкой - теперь видно latency, throughput, загрузку и $/req на уровне модели.

9 % zero-result · +1.6 pp CTR · −45 % cost

RAG-ассистент для каталога

MVP чат-поиск с автоматизацией деплоев, экспериментов и мониторинга качества

  • Remix
  • FastAPI
  • Weaviate
  • Ray Serve
  • Mistral-7B
Проблема: 30 % запросов без результатов, p95 latency 1.5 с, растущие расходы на облачный LLM
Решение: Гибридный поиск (вектор + BM25) с дообученным Mistral-7B, autoscaling в K8s и дешевым инференсом на 1 GPU

−24% неэффективных расходов · Precision@Fraud 0.90

Антифрод-аналитика Telegram для медиапланов

Система детекции накрутки сокращает неэффективные расходы на 24% и автоматизирует проверку 100 каналов за 12 минут

  • Python
  • Pandas
  • scikit-learn
  • FastAPI
  • PostgreSQL
  • SQLAlchemy
  • Redis
  • Celery
  • Docker
Проблема: 30% рекламного бюджета теряется на каналах с накруткой, ручная проверка 100 каналов занимает 25 часов
Решение: Гибридная система детекции (rule-based + anomaly) с батч-обработкой и адаптивными порогами по тематикам

−33% $/QPS при 300 QPS · +54% CTR

Система поиска и рекомендаций

Мультимодальная платформа поиска и рекомендаций с полным CI/CD-контуром, мониторингом и A/B-экспериментами

  • FastAPI
  • FAISS-HNSW
  • Triton + TensorRT
  • Terraform
  • Helm/K8s
Проблема: Высокая стоимость и p95 > 500 мс при поиске по 10M+ товаров в e-commerce
Решение: End-to-end архитектура c CLIP-энкодером, HNSW (FAISS), TensorRT-оптимизацией и canary A/B-деплоем

Связаться

Контакты

Готов к обсуждению ML‑проектов и внедрений, отвечаю лично.

Игорь Якушев,
ML-инженер

Фото Игоря Якушева, ML-инженера обо мне
1 слот открыт для проекта на октябрь

Решения с упором на продукт и System Design. Меня привлекают задачи с потенциалом системного роста.

Как начать разговор:

  1. 1. Напишите мне напрямую Свяжитесь так, как удобно вам: Telegram, email или LinkedIn.
  2. 2. Расскажите о задаче Пара строк: контекст, цель, формат - этого достаточно.
  3. 3. Если вижу, что могу помочь, договоримся о старте Предложу следующий шаг.

Быстрее всего

Написать в Telegram