Лидер российского рынка речевых API
Yandex SpeechKit — крупнейший в России облачный сервис для речевых технологий. Используется в Алисе, Яндекс.Такси, корпоративных голосовых ботах, аналитических платформах. Точность распознавания на русском 95%+ — выше международных API (Whisper, Google Speech) на 1-5% за счёт обучения преимущественно на русском контенте. Включает: speech-to-text (распознавание), text-to-speech (синтез с 30+ голосами), потоковое распознавание для real-time диалогов, поиск ключевых слов, определение языка, поддержка 20+ языков. От 10 ₽/минута, удобная регистрация в Yandex Cloud, готовые SDK.
Тарифы и расчёт стоимости
Базовая модель распознавания: 10 ₽/минута, для большинства задач достаточно. Премиум-модель с поддержкой эмоций и тонких интонаций: 20 ₽/минута. Распознавание с пользовательскими словарями для специальной терминологии: 30 ₽/минута. Синтез речи (TTS): 400 ₽ за 1 млн символов (примерно 100 часов аудио). Бесплатный тариф: первые 1000 запросов в месяц бесплатно — достаточно для тестирования и прототипирования. Корпоративный тариф: индивидуальные условия от 100 000 ₽/мес с скидками 30-50% на крупные объёмы. Расчёт для среднего бизнеса (10 000 минут в месяц) — около 100 000-150 000 ₽/мес.
SDK и интеграция
Официальные SDK для Python, Go, Java, JavaScript/TypeScript. REST API для любого языка программирования. gRPC API для real-time streaming. Готовые примеры кода в документации yandex.cloud. От регистрации в Yandex Cloud до первого распознавания — 30 минут. Интеграция с другими сервисами Yandex Cloud: Object Storage для хранения аудиофайлов, Cloud Functions для serverless обработки, DataSphere для ML-проектов. Стандартный workflow: загрузка аудио в Object Storage → запуск распознавания через API → получение текста в JSON-ответе → сохранение в базе данных.
Голоса для синтеза речи
30+ голосов в нескольких категориях. Мужские нейтральные: alena, ermil, jane, omazh, zahar — для дикторских задач, IVR, аудиокниг. Мужской премиум: filipp — для рекламы и продакшна. Женские нейтральные: oksana, kseniya, alena, jane, marina. Женский премиум: uliana — для контента высокого качества. Детские: zorro, ermolaev — для детских аудиокниг и обучающего контента. Знаменитые: Алиса (виртуальный ассистент). Эмоциональные стили для каждого голоса: neutral (нейтральный), good (доброжелательный), evil (злой), whisper (шёпот), friendly (дружелюбный). Скорость от 0,5x до 2x. Полная поддержка SSML для контроля произношения, пауз, ударений.
Применение в продуктах
Голосовые боты (AimyLogic, CraftTalk) используют Yandex SpeechKit для распознавания речи клиента и синтеза ответа в IVR. Транскрибация звонков (Comagic Speech, MANGO Speech) — для автоматического анализа разговоров операторов. Сервисы транскрибации (Speech2Text, Buktitsa) — основа их движка. Голосовые ассистенты в мобильных приложениях. Автоматические субтитры для видеоплатформ. Голосовой ввод в формы и поиск. Озвучка обучающего контента LMS, аудиокниг, рекламных видеороликов. Анализ звонков в собственных системах через REST API. Алгоритмическая дубляжная индустрия для перевода видео контента.