Question 1

Что такое Yandex SpeechKit?

Accepted Answer

Yandex SpeechKit — облачный API от Yandex Cloud для речевых технологий. Включает: speech-to-text (распознавание речи в текст с точностью 95%+ на русском), text-to-speech (синтез речи с 30+ голосами включая эмоциональные), speech-to-speech (перевод речи на лету), поиск ключевых слов в аудио, определение языка. Поддержка 20+ языков с фокусом на русский. Используется в Алисе, Яндекс.Такси, корпоративных голосовых ботах, транскрибации звонков. Цена от 10 ₽/минута распознавания, 400 ₽ за 1 млн символов синтеза.

Question 2

Какая точность распознавания на русском?

Accepted Answer

Чистая речь (студийный микрофон, один спикер) — 95-98%. Подкаст или интервью в Zoom — 90-95%. Запись на смартфон — 85-92%. Телефонный звонок с шумом — 80-88%. Yandex SpeechKit лучше международных API (Whisper, Google Speech) для русского языка на 1-5% — потому что модель обучена преимущественно на русском контенте. Пользовательские словари позволяют добавить специфическую терминологию (медицина, юриспруденция, IT) — поднимают точность для специальной лексики на 5-10%. Для критичных задач (юридические записи) — гибрид с ручной верификацией.

Question 3

Какие тарифы и как платить?

Accepted Answer

Поминутная оплата за распознавание: базовая модель 10 ₽/мин, премиум с эмоциями 20 ₽/мин, с пользовательскими словарями 30 ₽/мин. Синтез речи: 400 ₽ за 1 млн символов (≈100 часов аудио TTS). Бесплатный тариф: первые 1000 запросов в месяц бесплатно для тестирования. Корпоративный тариф: индивидуальные условия для крупных клиентов от 100 000 ₽/мес со скидками 30-50% на большие объёмы. Оплата через Yandex Cloud — карта или безнал для юрлиц. Биллинг помесячный с детализацией по каждому запросу.

Question 4

Какие SDK поддерживаются?

Accepted Answer

Официальные SDK от Yandex Cloud: Python (yandex-speechkit), Go, Java, JavaScript/TypeScript. REST API — можно использовать с любым языком программирования через стандартные HTTP-запросы. gRPC API для real-time потокового распознавания (важно для голосовых ботов с минимальной задержкой). Готовые примеры кода в документации. Интеграция с другими сервисами Yandex Cloud: Object Storage для хранения аудио, Cloud Functions для serverless обработки, DataSphere для ML-задач. Время от регистрации до первого распознавания — 30 минут.

Question 5

Что такое потоковое распознавание?

Accepted Answer

Streaming Speech Recognition — режим, когда аудио передаётся в API частями по мере записи (не нужно ждать конца записи), и API возвращает текст в реальном времени с задержкой 100-500 мс. Используется в голосовых ботах для разговора с клиентами (бот должен отвечать сразу, а не через 30 секунд после окончания фразы), в живых субтитрах для вебинаров, в голосовом вводе для поиска. Yandex SpeechKit поддерживает потоковое распознавание через gRPC API. Цена та же, что у обычного — 10-30 ₽/минута. Альтернативное решение для streaming — Tinkoff VoiceKit (похожая функциональность).

Question 6

Какие голоса есть для синтеза речи (TTS)?

Accepted Answer

30+ голосов в нескольких категориях. Мужские: alena, ermil, jane, omazh, zahar (нейтральные), filipp (мужской премиум). Женские: oksana, kseniya, alena, jane, marina (нейтральные), uliana (премиум). Детские: zorro, ermolaev (детские голоса). Знаменитые: Алиса (виртуальный ассистент Yandex). Эмоциональные стили: neutral, good, evil, whisper, friendly. Скорость от 0,5x до 2x. Поддержка SSML (Speech Synthesis Markup Language) для тонкой настройки произношения, пауз, ударений. Используется в IVR, аудиокнигах, озвучке видео, обучающих курсах.

Question 7

Сравнение с Tinkoff VoiceKit и SmartSpeech?

Accepted Answer

Yandex SpeechKit: лучший выбор по соотношению цены и качества для среднего бизнеса, гибкие тарифы от 10 ₽/мин, удобная регистрация и быстрый старт. Tinkoff VoiceKit: похожее качество, специализация на финансовом секторе и звонках, цена от 8 ₽/мин. SmartSpeech (Сбер): корпоративный сегмент, индивидуальные тарифы от 20 000 ₽/мес, фокус на госсектор и крупные банки. Для большинства проектов — Yandex SpeechKit. Для финансового сектора с особыми требованиями — Tinkoff. Для крупных корпораций с ФЗ-152 и государственными требованиями — SmartSpeech.

Yandex SpeechKit: распознавание и синтез речи — 1 лучший сервис с тарифами и отзывами

Yandex SpeechKit

Сравнение сервисов Yandex SpeechKit: распознавание и синтез речи

Часто задаваемые вопросы

Yandex SpeechKit 2026: API распознавания и синтеза речи

Лидер российского рынка речевых API

Тарифы и расчёт стоимости

SDK и интеграция

Голоса для синтеза речи

Применение в продуктах