
MWS AI (бывший MTS AI) — один из ведущих российских AI-центров компетенций от группы МТС. ООО «МВС ИИ» с 2026, продуктовая линейка: Cotype (LLM), Audiogram (ASR/TTS), Kodify, WordPulse, AI Agents Platform, ИИ-рекрутер, Дипфейк-детектор.
В каталоге собрано 5 сервисов по направлению «API распознавания речи (ASR)». API для распознавания и синтеза речи: Yandex SpeechKit, Tinkoff VoiceKit, SmartSpeech (Сбер), MTS AI API, Whisper OpenAI, Vosk, Silero. Для разработчиков, встраивающих speech-to-text и text-to-speech в свои продукты — голосовые боты, транскрибацию, голосовые помощники, автоматические субтитры. Сравнение цен, точности на русском языке, поддерживаемых форматов, лимитов API. Для каждого сервиса представлены тарифы, функции, отзывы и сравнение с аналогами.

MWS AI (бывший MTS AI) — один из ведущих российских AI-центров компетенций от группы МТС. ООО «МВС ИИ» с 2026, продуктовая линейка: Cotype (LLM), Audiogram (ASR/TTS), Kodify, WordPulse, AI Agents Platform, ИИ-рекрутер, Дипфейк-детектор.

Российский сервис речевой аналитики ООО «Речевые технологии» (Иннополис, Татарстан). Распознаёт речь, строит кластеры похожих по смыслу слов, выдаёт отчёты с фильтрами, помогает находить проблемные звонки, обучать сотрудников и улучшать репутацию бренда.

API для распознавания и синтеза речи в реальном времени с потоковым режимом через gRPC и REST. Часть T-API от Т-Банка (бывший Tinkoff VoiceKit). Сервис ООО «ТЦР»: распознавание доступно для ЮЛ и физлиц, синтез — только для ЮЛ.

Open-source модель автоматического распознавания речи (ASR) от OpenAI на архитектуре Transformer encoder-decoder. Обучена на 680 000 часов многоязычных данных, поддерживает транскрипцию и перевод на английский. Доступна как через API OpenAI, так и для self-hosted-запуска.

Модуль AI Speech в Yandex AI Studio: распознавание и синтез речи, Realtime API голосовых агентов с откликом < 1 секунды, LLM-обработка результатов, Brand Voice (Lite + Premium) и SpeechKit Hybrid для on-premises. ООО «Яндекс.Облако», в реестре российского ПО.
| Название | Мин. цена | Пробный период | Развёртывание | Интеграции | Рейтинг |
|---|---|---|---|---|---|
| Whisper (OpenAI) | Бесплатно | Бесплатный тариф | Open-source (self-hosted) + API OpenAI | — | Нет оценок |
| Yandex SpeechKit | По запросу | — | Облако (Yandex AI Studio) + On-premises (SpeechKit Hybrid) | — | Нет оценок |
| T-Bank VoiceKit | По запросу | — | Облачный API (developer.tbank.ru) | — | Нет оценок |
| MWS AI (бывший MTS AI) | По запросу | — | Облако (API) + on-premise (по запросу для enterprise) + open-source Kodify Nano | — | Нет оценок |
| SmartSpeech | По запросу | — | Облачный сервис | — | Нет оценок |
Yandex SpeechKit — лидер российского рынка, точность 95%+ на чистой русской речи, 30+ голосов для синтеза включая эмоциональные, поддержка 20+ языков, интеграция с Yandex Cloud. От 10 ₽/минута. Tinkoff VoiceKit — конкурент с похожим качеством, фокус на финансовый сектор и звонки. От 8 ₽/минута. SmartSpeech от Сбера — корпоративный сегмент с индивидуальными тарифами от 20 000 ₽/мес. Whisper OpenAI — open-source с лучшей точностью для английского, для русского уступает Yandex. Для российских проектов на русском — Yandex SpeechKit оптимален.
Whisper — open-source модель от OpenAI для speech-to-text, доступна двумя путями. 1) API OpenAI: $0,006 за минуту через REST API, удобно для разовых задач, минимум усилий — но данные уходят на серверы OpenAI. 2) Self-hosted: бесплатно, разворачиваете на своём GPU-сервере (нужен NVIDIA RTX 3080+ от 4 ГБ VRAM, $20-100/мес стоимость GPU). Преимущества self-hosted: полный контроль данных (важно для медицины, юриспруденции), безлимитная обработка, фиксированная стоимость. Минусы: нужна DevOps-команда, для русского качество ниже Yandex.
Yandex SpeechKit: 10-30 ₽/минута в зависимости от модели (базовая, премиум с эмоциями, с пользовательскими словарями). Tinkoff VoiceKit: 8-20 ₽/минута. SmartSpeech: индивидуальные тарифы от 20 000 ₽/мес. Whisper OpenAI API: $0,006/минута (≈0,6 ₽/мин для английского, для русского лучше Yandex). Whisper self-hosted: фиксированная стоимость GPU $20-100/мес, окупается при объёмах от 50 000 минут/мес. Для типовых сценариев: 10 000 минут/мес → Yandex ≈ 150 000 ₽, self-hosted Whisper ≈ 50 000 ₽ при полной загрузке GPU. Для разовых задач — Yandex.
Yandex SpeechKit — публичное облачное API с поминутной оплатой, доступно любому через регистрацию в Yandex Cloud. Хорошо подходит для среднего и малого бизнеса, гибкий тариф. SmartSpeech (Сбер) — корпоративный продукт с индивидуальными договорами и тарифами, ориентирован на крупные компании финансового сектора и госсектор. Качество распознавания у обоих похожее (95%+ на русском). Yandex проще в подключении, SmartSpeech даёт больше гарантий по SLA и хранению данных в РФ. Для большинства задач — Yandex SpeechKit.
Vosk — open-source библиотека распознавания речи на базе моделей Kaldi, разработана российской командой AlphaCephei. Поддержка 20+ языков включая русский. Можно запускать на CPU без GPU, на смартфонах и микроконтроллерах. Точность ниже коммерческих API (85-90% на чистой речи), но бесплатная и работает offline. Silero — российская open-source библиотека для распознавания речи и синтеза. Хорошее качество для русского языка, можно использовать в коммерческих проектах без лицензионных отчислений. Оба подходят для проектов с ограниченным бюджетом или требованиями offline-работы (мобильные приложения, IoT-устройства).
Облачное API (Yandex, Tinkoff, SmartSpeech): быстрый старт за 1 день, не нужна инфраструктура, поминутная оплата. Минусы: данные уходят на сервера провайдера, при больших объёмах дорого. Self-hosted (Whisper, Vosk, Silero): полный контроль данных, безлимитная обработка, фиксированная стоимость GPU. Минусы: нужна DevOps-команда, время на развёртывание 1-2 недели, требования к железу. Облачное API — для проектов до 50 000 минут/мес и быстрого старта. Self-hosted — для крупных объёмов (100 000+ минут/мес) или конфиденциальных данных (медицина, юриспруденция, госсектор).
API для speech-to-text позволяет встроить распознавание речи в свои продукты: голосовые боты для бизнеса, автоматическую транскрибацию аудио и видео, голосовые ассистенты в мобильных приложениях, автоматические субтитры для видеоплатформ, голосовой ввод в формы и поиск, анализ звонков колл-центра в собственной системе. Современные API дают точность 90-98% на чистой русской речи, поминутную оплату от 10 ₽, готовые SDK для популярных языков программирования. Это базовый строительный блок для любого продукта со звуком.
Yandex SpeechKit (yandex.cloud/services/speechkit) — крупнейший российский API для речевых технологий. Точность распознавания на русском 95%+, поддержка 20+ языков, 30+ голосов для синтеза с эмоциями, поиск ключевых слов, определение языка. От 10 ₽/минута распознавания, 400 ₽ за 1 млн символов синтеза. Удобная документация, готовые SDK для Python, Go, Java, JavaScript. Tinkoff VoiceKit (voicekit.tinkoff.ru) — конкурент с фокусом на финансовый сектор. От 8 ₽/минута. SmartSpeech от Сбера — корпоративный продукт для крупного бизнеса. От 20 000 ₽/мес индивидуальные тарифы. MTS AI API — от МТС, для интеграции в экосистему МТС Облако.
Whisper OpenAI — open-source модель с лучшей в мире точностью для английского. Доступна двумя способами: API OpenAI ($0,006/минута) или self-hosted на своём GPU (бесплатно, фиксированная стоимость железа). Поддержка 100+ языков. Для русского уступает Yandex SpeechKit, но для английского — лучший выбор. Google Cloud Speech-to-Text — качественный сервис для 125+ языков, $0,016/минута. Microsoft Azure Speech Services — альтернатива Google. Amazon Transcribe — от AWS. Для русскоязычных проектов международные API проигрывают Yandex по точности и цене.
Vosk — российская open-source библиотека на базе моделей Kaldi. Поддержка 20+ языков включая русский. Запускается на CPU без GPU, на смартфонах, IoT-устройствах. Точность 85-90% на чистой речи. Бесплатно для коммерческих проектов. Silero — российская open-source библиотека для распознавания и синтеза. Хорошее качество для русского, без лицензионных отчислений. Идеально для проектов с ограниченным бюджетом, мобильных приложений, оффлайн-работы. Главное преимущество — полный контроль данных и стоимости (нет поминутной оплаты).
Голосовые боты для бизнеса: AimyLogic, CraftTalk, Naumen используют Yandex SpeechKit или Tinkoff VoiceKit под капотом для распознавания речи клиента и синтеза ответа. Транскрибация подкастов и видео: Speech2Text, Any2Text, Otter.ai используют комбинацию API. Голосовые ассистенты в мобильных приложениях: голосовой ввод запросов в поиск, голосовое управление функциями. Автоматические субтитры YouTube для русскоязычных видео: загрузка через API в студию. Анализ звонков колл-центра: Comagic Speech и MANGO Speech используют Yandex или Tinkoff для распознавания, потом NLP для анализа. Голосовой поиск в e-commerce: «найди красные кроссовки» произносится в микрофон, API распознаёт, поиск возвращает результаты.
Каталог обновлён: май 2026