
Платформа ИИ-сервисов от МТС с API для распознавания речи, синтеза голоса, NLP и компьютерного зрения.
В каталоге 5 сервисов по направлению «API распознавания речи». Стоимость — от 3 500 ₽/мес. 2 сервиса с бесплатным тарифом.

Платформа ИИ-сервисов от МТС с API для распознавания речи, синтеза голоса, NLP и компьютерного зрения.

Сервис распознавания и анализа речи от Сбера с поддержкой синтеза голоса, потоковой транскрибации и речевой аналитики через API

Облачный API от Тинькофф для распознавания и синтеза речи с высокой точностью и поддержкой потокового режима.

Открытая ИИ-модель распознавания речи от OpenAI с поддержкой 99 языков, доступная через API и для локального запуска.

Облачный API от Яндекса для распознавания и синтеза речи с поддержкой потокового режима и множества голосов.
| Название | Мин. цена | Пробный период | Развёртывание | Интеграции | Рейтинг |
|---|---|---|---|---|---|
| Whisper (OpenAI) | Бесплатно | Бесплатный тариф | Облако и сервер | — | Нет оценок |
| Yandex SpeechKit | По запросу | — | Облако | — | Нет оценок |
| Tinkoff VoiceKit | По запросу | — | Облако | — | Нет оценок |
| SmartSpeech | Бесплатно | Бесплатный тариф | Облако / On-premise | — | Нет оценок |
| MTS AI API | По запросу | — | Облако | — | Нет оценок |
Yandex SpeechKit — лидер российского рынка, самая высокая точность для русского языка, 30+ голосов для синтеза (включая эмоциональные), поддержка 20+ языков, интеграция с Yandex Cloud. Цена — от 10 ₽/минута распознавания, 400 ₽ за 1 млн символов синтеза. Tinkoff VoiceKit — конкурент с похожим качеством, фокус на финансовые услуги и звонки, от 8 ₽/минута. SmartSpeech от Сбера — корпоративный сегмент. Для большинства задач — Yandex SpeechKit.
Whisper — open-source модель от OpenAI для speech-to-text, бесплатна при self-hosted развёртывании. Требует сервер с GPU (от 20 000 ₽/мес GPU-сервер). Плюсы: высочайшая точность для английского (лучше коммерческих API), поддержка 100+ языков, нет ограничений по объёму, контроль данных. Минусы: нужна DevOps-экспертиза для развёртывания, для русского языка уступает Yandex SpeechKit, требует мощного GPU. Оптимально для компаний с большими объёмами (от 100 000 минут/мес) и конфиденциальными данными.
Yandex SpeechKit: 10-30 ₽/минута в зависимости от модели (базовая, премиум с эмоциями). Tinkoff VoiceKit: 8-20 ₽/минута. SmartSpeech: индивидуальные тарифы от 20 000 ₽/мес. Whisper OpenAI (API): $0.006/минута (≈0.6 ₽/минута — самое дешёвое для английского, но не оптимально для русского). Whisper self-hosted: стоимость GPU-сервера 20-100 тыс ₽/мес амортизируется при больших объёмах. Для 10 000 минут/мес: Yandex ≈ 150 000 ₽, Whisper self-hosted ≈ 50 000 ₽ (при полной загрузке GPU).
Text-to-speech (TTS) — обратная задача распознаванию, генерация речи из текста. Современные нейросети создают очень естественный голос, неотличимый от человеческого. Yandex SpeechKit — 30+ голосов с эмоциями. ElevenLabs — международный лидер по качеству синтеза и клонированию голоса. Zvukogram — российский сервис с удобным интерфейсом. Применение: озвучивание IVR и голосовых ботов, автоматическое чтение текста (аудиокниги), персонализированные голосовые сообщения, клонирование голоса (с разрешения владельца) для многоязычного дубляжа видео.
Yandex SpeechKit (yandex.cloud/services/speechkit) — крупнейший российский API для речевых технологий: speech-to-text с точностью 95%+ на русском, text-to-speech с 30+ голосами (мужские, женские, детские, эмоциональные), определение эмоций, поиск ключевых слов. От 10 ₽/минута распознавания. Tinkoff VoiceKit — альтернатива от Тинькофф с фокусом на финансовый сектор. SmartSpeech (Сбер) — корпоративный продукт. MTS AI API — от МТС с интеграцией в экосистему МТС Облако.
Whisper OpenAI — open-source модель с лучшей в мире точностью для английского языка, бесплатна при self-hosted (нужен GPU) или через API ($0.006/минута). Google Cloud Speech-to-Text — качественный сервис для 125+ языков. Microsoft Azure Speech Services — альтернатива Google. Amazon Transcribe — от AWS. Для российских проектов с русскоязычным контентом — Yandex SpeechKit выигрывает у всех международных сервисов по точности и цене.
Разработчики встраивают speech-to-text API в: (1) голосовые боты (AimyLogic, CraftTalk уже используют Yandex под капотом); (2) приложения с голосовым вводом (заметки, поисковые запросы); (3) автоматическую транскрибацию (Any2Text, Otter.ai); (4) анализ звонков колл-центров; (5) автоматические субтитры для видео; (6) голосовые ассистенты. Text-to-speech API используется для озвучивания текста в IVR, аудиокнигах, персонализированных сообщениях, голосовых уведомлениях.
Для проекта с русской речью и объёмом до 10 000 минут/мес — Yandex SpeechKit (баланс цены и качества). Для проекта с большим объёмом (100 000+ минут) и конфиденциальными данными — Whisper self-hosted на своём GPU-сервере. Для международного проекта с английским — Whisper через API или Google Cloud Speech. Для интеграции с экосистемой российского банка — Tinkoff VoiceKit или SmartSpeech. Для минимальных бюджетов (тестирование, прототипы) — бесплатный тариф Yandex SpeechKit (первые 1000 запросов).
Каталог обновлён: март 2026