Проекты

Здесь собраны мои продовые ML-проекты: от генеративного AI и рекомендаций до MLOps-инфраструктур и observability. В каждом кейсе - проблема, архитектура и реальный результат.

72% автоответов · −58% cost per call · CSAT +1.9

Голосовой AI-оператор для колл-центра

On-prem голосовой AI-оператор закрывает 72% звонков без человека за 0.96 с со снижением стоимости на 58%.

Llama 3.1 70B NF4 (TP=2, no-MIG)
Llama 3.1 8B INT4
Whisper v3 streaming
Llama Guard 2
Coqui XTTS
Riva FastPitch + HiFi-GAN
Temporal
Qdrant
Postgres (self-hosted, Supabase stack)
Redis Streams
Grafana LGTM

Проблема: 600 мест в контакт-центре, ожидание 9 минут, штрафы за SLA и новые требования AI Act, регламенты устаревают быстрее, чем успевают учить операторов.

Решение: On-prem стек со стримингом, каскадом моделей, оркестрацией и базой знаний. Правила безопасности и ручная эскалация.

Архитектура и метрики

−43% $/req · p99 latency стабилен

Платформа оценки latency и стоимости ML‑инференса

Внутренний инструмент для профилировки latency, throughput и $/req моделей в проде

PyTorch
ONNX
Prometheus
Grafana
Kubernetes
Torch Profiler
Kubecost
Triton Inference Server

Проблема: Не было единого стандарта мониторинга: команды выкатывали модели как попало, GPU простаивали, latency плавало, затраты не считались.

Решение: Собрали платформу с Prometheus, Kubecost и Torch/ONNX-профилировкой - теперь видно latency, throughput, загрузку и $/req на уровне модели.

Архитектура и метрики

9 % zero-result · +1.6 pp CTR · −45 % cost

RAG-ассистент для каталога

MVP чат-поиск с автоматизацией деплоев, экспериментов и мониторинга качества

Remix
FastAPI
Weaviate
Ray Serve
Mistral-7B

Проблема: 30 % запросов без результатов, p95 latency 1.5 с, растущие расходы на облачный LLM

Решение: Гибридный поиск (вектор + BM25) с дообученным Mistral-7B, autoscaling в K8s и дешевым инференсом на 1 GPU

Архитектура и метрики

−24% неэффективных расходов · Precision@Fraud 0.90

Антифрод-аналитика Telegram для медиапланов

Система детекции накрутки сокращает неэффективные расходы на 24% и автоматизирует проверку 100 каналов за 12 минут

Python
Pandas
scikit-learn
FastAPI
PostgreSQL
SQLAlchemy
Redis
Celery
Docker

Проблема: 30% рекламного бюджета теряется на каналах с накруткой, ручная проверка 100 каналов занимает 25 часов

Решение: Гибридная система детекции (rule-based + anomaly) с батч-обработкой и адаптивными порогами по тематикам

Архитектура и метрики

−33% $/QPS при 300 QPS · +54% CTR

Система поиска и рекомендаций

Мультимодальная платформа поиска и рекомендаций с полным CI/CD-контуром, мониторингом и A/B-экспериментами

FastAPI
FAISS-HNSW
Triton + TensorRT
Terraform
Helm/K8s

Проблема: Высокая стоимость и p95 > 500 мс при поиске по 10M+ товаров в e-commerce

Решение: End-to-end архитектура c CLIP-энкодером, HNSW (FAISS), TensorRT-оптимизацией и canary A/B-деплоем

Архитектура и метрики

Связаться

Контакты

Готов к обсуждению ML‑проектов и внедрений, отвечаю лично.

Игорь Якушев,
ML-инженер

обо мне

1 слот открыт для проекта на октябрь

Решения с упором на продукт и System Design. Меня привлекают задачи с потенциалом системного роста.

Как начать разговор:

1. Напишите мне напрямую Свяжитесь так, как удобно вам: Telegram, email или LinkedIn.
2. Расскажите о задаче Пара строк: контекст, цель, формат - этого достаточно.
3. Если вижу, что могу помочь, договоримся о старте Предложу следующий шаг.

Быстрее всего

Написать в Telegram

Проекты

Голосовой AI-оператор для колл-центра

Платформа оценки latency и стоимости ML‑инференса

RAG-ассистент для каталога

Антифрод-аналитика Telegram для медиапланов

Система поиска и рекомендаций

Контакты

Игорь Якушев,ML-инженер

Как начать разговор:

Игорь Якушев,
ML-инженер