Как проектировать on-prem голосового агента без облака: задержка первого звука, barge-in, turn detection, Audio2Face, одна GPU и релизные проверки.
Игорь Якушев
обо мнеML-инженер | Поиск, retrieval и рекомендательные системы
Строю поиск, рекомендации и мультимодальные AI-системы на реальном трафике. Пишу про архитектуру, evals и rollout production ML.
Статьи
Здесь я делюсь опытом, мыслями и практиками ML/AI систем. От архитектуры до наблюдаемости.
Инженерный разбор evals для LLM-агентов: карта отказов, уровни оценки, грейдеры, pass^k, статистика прогонов, калибровка LLM-as-judge, архитектура харнесса и релизные гейты.
Инженерный разбор пайплайна, который превращает продуктовые логи поиска, рекомендаций и мультимодального поиска в данные для SFT, DPO, GRPO и модели-судьи.
Кейсы
Проекты с задачами, архитектурой и метриками.

Голосовой AI для колл-центра
On-prem голосовой AI-оператор закрывает 72% звонков без человека за 0.96 с со снижением стоимости на 58%.
Проблема: 600 мест в контакт-центре, ожидание 9 минут, штрафы за SLA и новые требования AI Act, регламенты устаревают быстрее, чем успевают учить операторов.
Решение: On-prem стек со стримингом, каскадом моделей, оркестрацией и базой знаний. Правила безопасности и ручная эскалация.

Платформа оценки стоимости ML‑инференса
Внутренний инструмент для профилировки latency, throughput и $/req моделей в проде

RAG-ассистент для каталога
MVP чат-поиск с автоматизацией деплоев, экспериментов и мониторинга качества
Обо мне

Я Игорь Якушев. Проектирую ML-решения, которые выдерживают трафик, экономят деньги и не ломаются в субботу ночью.
Начинал с маркетинга и бизнеса, пока не пришел к инженерии. Сейчас отвечаю за поиск и рекомендации на проде с 10+ млн запросов в сутки.
Мой фокус это системы, которые живут под нагрузкой, не ломаются и не требуют героя.
«make AI boring again»
ML инженер · System design · Продуктовый подход
Контакты
Готов к обсуждению ML‑проектов и внедрений, отвечаю лично.
Игорь Якушев
ML-инженер
обо мнеSearch, Retrieval, RecSys и ML в проде для систем с 10M+ запросов в день.
Быстрее всего
Написать в Telegram