Перевести русскую речь в текст сегодня можно тремя популярными способами: облачным API Yandex SpeechKit, облачным SaluteSpeech от Сбера или открытой моделью Whisper от OpenAI. Они распознают речь по-разному, и единственного победителя нет: всё решают чистота аудио, скорость, цена и требования к данным. Разбираем по реальным бенчмаркам, кто точнее на русском, сколько стоит час распознавания и почему для персональных данных выбирают именно российские сервисы.
Это сравнение для тех, кто выбирает движок распознавания под конкретную задачу: транскрибацию интервью, расшифровку звонков колл-центра, субтитры к видео или голосового бота. Если же вам нужен общий обзор способов перевести аудио в текст, начните с нашего гайда по транскрибации, а про запуск Whisper своими руками есть отдельная инструкция.
Что мы сравниваем и почему нет одного победителя
Распознавание речи (по-английски ASR, automatic speech recognition) — это перевод звучащей речи в текст нейросетью на базе искусственного интеллекта. Оно лежит в основе транскрибации аудио и видео, субтитров, голосовых ботов и приложений, которые понимают команды голосом и анализируют записи разговоров. Качество принято измерять метрикой WER (word error rate), долей ошибочных слов: чем она ниже, тем чище распознавание. Но одна цифра обманчива: сервис, лидирующий на чистой студийной записи, может развалиться на шуме или быстром темпе, а на ровном дикторском аудио разница между движками почти исчезает.
Поэтому сравнивать стоит не по одной средней цифре, а по нескольким осям сразу: точность в ваших условиях, цена за нужный объём, скорость, наличие диаризации и пунктуации и, отдельно, где физически обрабатывается звук. Последнее особенно важно для персональных данных.
0,26 против 0,63
такова разница в доле ошибок (WER) между SaluteSpeech и Yandex SpeechKit на аудио с фоновым шумом в открытом бенчмарке команды SimbirSoft. На чистой записи оба показали близкий результат, но именно на шуме разрыв оказался почти двукратным. Вывод: «лучший» сервис зависит от того, насколько чистое у вас аудио, а не от абстрактного рейтинга.
Главное здесь: распознавание речи измеряют метрикой WER (доля ошибочных слов), но одной цифры мало; сравнивать нужно по нескольким осям сразу (точность в ваших условиях, цена, скорость, диаризация, где обрабатываются данные), потому что лидер на чистом аудио может проигрывать на шуме и быстрой речи.
Что такое SpeechKit, SaluteSpeech и Whisper?
Три сервиса представляют три разных подхода: два российских облачных API и одна открытая модель. Это принципиально влияет и на цену, и на приватность.
| Сервис | Чьё и что это | Где обрабатывается |
|---|---|---|
| Yandex SpeechKit | Яндекс, облачный API (часть Yandex AI Studio), распознавание и синтез речи | Серверы в РФ, в реестре российского ПО |
| SaluteSpeech | Сбер, облачный API распознавания и синтеза речи | Серверы в РФ, бесплатный лимит 100 минут в месяц |
| Whisper | OpenAI, открытая (open-source) модель, обучена на 680 000 часов речи | Локально на вашем железе или через API OpenAI за рубежом |
Ключевая развилка: SpeechKit и SaluteSpeech — это готовый сервис по подписке, где вы платите за минуты и не думаете про серверы. Whisper — это модель, которую вы либо запускаете у себя бесплатно (нужен компьютер с видеокартой), либо вызываете через платный API OpenAI. Под капотом у российских сервисов работают собственные модели; так, в основе многих решений Сбера лежит семейство GigaAM, которое на сложном русском аудио обходит Whisper по точности.
Главное здесь: SpeechKit (Яндекс) и SaluteSpeech (Сбер) — это облачные API с обработкой на серверах в РФ и оплатой за минуты; Whisper (OpenAI) — это открытая модель, которую запускают бесплатно локально или вызывают через зарубежный API; различие в подходе определяет и цену, и приватность.
Кто точнее распознаёт русскую речь?
На чистом дикторском аудио все три справляются хорошо, разница в пределах нескольких процентов ошибок. Картина меняется, как только запись становится реальной: с шумом, перебивками, быстрым темпом и терминами.
В открытом бенчмарке SimbirSoft на естественной речи с фоновым шумом SaluteSpeech показал WER около 0,26, а Yandex SpeechKit, около 0,63, то есть на шуме ошибался заметно чаще. При этом на очень быстрой речи (ускорение в два раза) уже сам SaluteSpeech начинал возвращать пустой результат. Whisper в независимых тестах даёт примерно 95-97% точности на чистом русском и 88-92% на сложных записях с шумом и акцентами, но на по-настоящему трудном русском аудио российские модели вроде GigaAM нередко оказываются точнее.
«SpeechKit более чувствительна к фоновому шуму и игнорирует пунктуацию. SaluteSpeech не может распознавать высокий темп речи. SpeechFlow систематически порождает несуществующие слова».
— Екатерина, IT-архитектор ML-команды SimbirSoft, бенчмарк распознавания речи на Habr, 14.08.2024.
Тот же бенчмарк честно оговаривает, что метрика WER «является неоптимальной для сопоставления работы систем»: цифры дают лишь общую картину, а реальное качество нужно смотреть на своих данных. Поэтому единственно верный ответ на вопрос «кто точнее» — это «проверьте на собственном аудио», о чём будет отдельный раздел.
Главное здесь: на чистом аудио все три сервиса близки, а на реальном расходятся: по бенчмарку SimbirSoft на шуме SaluteSpeech (WER около 0,26) заметно точнее SpeechKit (около 0,63), но сам пасует на очень быстрой речи; Whisper силён на чистом русском, а на трудном аудио российские модели часто впереди.
Сколько стоит распознавание речи?
Цена сильно зависит от подхода. Облачные API берут плату за минуты, Whisper бесплатен локально, но требует вашего железа, а его облачный API считается в долларах.
| Сервис | Сколько стоит | Бесплатно |
|---|---|---|
| Yandex SpeechKit | Pay-as-you-go в рублях, по обзорам около 0,60 ₽/мин (точные тарифы в документации) | Пробный доступ через Yandex Cloud |
| SaluteSpeech | Freemium около 1,20 ₽/мин, дешевле при пакете (около 0,60 ₽/мин на бизнес-объёмах) | 100 минут в месяц бесплатно |
| Whisper | Локально 0 ₽ (нужен свой GPU); API OpenAI около $0,006/мин | Полностью бесплатно при локальном запуске |
Если перевести в час записи, облачное распознавание выходит примерно в 36-72 ₽ за час у российских сервисов и около $0,36 за час у Whisper API. Цифры по тарифам облаков стоит перепроверять в документации: они зависят от режима (синхронный или асинхронный) и объёма. Для разовых задач выгоднее бесплатные лимиты, для регулярного потока, пакеты или локальный Whisper.
Главное здесь: облачное распознавание стоит примерно 36-72 ₽ за час у SpeechKit и SaluteSpeech и около $0,36/час у Whisper API; локальный Whisper бесплатен, но требует видеокарты, а у SaluteSpeech есть 100 бесплатных минут в месяц; точные тарифы облаков уточняйте в документации.
Чем отличаются скорость, диаризация и пунктуация?
Помимо точности и цены, на практике решают три вещи: как быстро сервис возвращает текст, умеет ли он делить речь по спикерам (диаризация) и расставляет ли пунктуацию.
По замерам Алексея Кулясова на одинаковом файле SaluteSpeech оказался самым быстрым (обработка около 84 секунд), тогда как SpeechKit был медленнее (около 270 секунд), хотя и чуть точнее в том тесте. Диаризация (разделение «кто говорит») есть у всех, но в деталях различается: например, в части версий API SpeechKit её приходится подключать отдельно. Пунктуацию SaluteSpeech и SpeechKit расставляют сами, а Whisper, в зависимости от версии и обвязки.
SaluteSpeech стоит брать «для скорости обработки», SpeechKit удобен «при работе в Yandex Cloud»; при этом SaluteSpeech самый быстрый из протестированных, но с точностью около 88% и поддержкой лишь нескольких языков.
— Алексей Кулясов, сравнение API транскрибации на TenChat (формулировка сокращена).
Отсюда практический вывод: если важна скорость потока (например, расшифровка тысяч звонков), смотрите на SaluteSpeech; если проект уже живёт в инфраструктуре Яндекса, логичнее SpeechKit; а если нужна максимальная гибкость и контроль, Whisper.
Главное здесь: SaluteSpeech обычно самый быстрый, SpeechKit удобен внутри экосистемы Яндекса; диаризация есть у всех, но иногда подключается отдельно; пунктуацию облака расставляют сами, а у Whisper это зависит от версии и обвязки.
Почему для персональных данных выбирают SpeechKit или SaluteSpeech?
Это ось, которую часто упускают, хотя для бизнеса она решающая. Когда вы отправляете запись голоса в облако, вы передаёте данные третьему лицу, а по 152-ФЗ запись речи может относиться к персональным, а иногда и к биометрическим данным.
Yandex SpeechKit и SaluteSpeech обрабатывают звук на серверах в России и входят в контур российских облаков (SpeechKit, в реестре отечественного ПО). Для расшифровки звонков с именами, телефонами и адресами клиентов это обычно обязательное условие. Whisper через API OpenAI отправляет аудио на зарубежные серверы, а оплата требует иностранной карты, поэтому для чувствительных данных подходит только его локальный запуск, когда звук не покидает ваш компьютер. Тогда Whisper становится самым приватным вариантом из трёх. Подробнее про риски облачной обработки звука мы писали в разборе шумоподавления и приватности записи.
Главное здесь: по 152-ФЗ запись голоса может быть персональными данными, поэтому для клиентских записей выбирают SpeechKit или SaluteSpeech (серверы и обработка в РФ, реестр росПО); Whisper подходит для чувствительных данных только при локальном запуске, зато тогда он самый приватный.
Yandex SpeechKit: кому подходит
SpeechKit — это речевой модуль платформы Yandex AI Studio: распознавание и генерация (синтез) речи, Realtime API для голосовых агентов и диалогов с откликом меньше секунды, обработка результата языковой моделью и кастомные голоса Brand Voice (подробно про синтез речи, в обзоре нейросетей для озвучки текста). Есть и вариант SpeechKit Hybrid для развёртывания на собственной инфраструктуре, что важно госсектору и крупным компаниям.

Сильная сторона, экосистема и инструменты для разработчиков: REST и gRPC API, Realtime-протокол, интеграции внутри Yandex Cloud. Слабее всего SpeechKit, как показал бенчмарк, держится на сильном фоновом шуме, и в части версий API диаризацию нужно подключать отдельно. Полный набор функций и тарифов, в карточке сервиса:
Главное здесь: Yandex SpeechKit — это речевой модуль Yandex AI Studio с распознаванием, синтезом, Realtime API и кастомными голосами, серверами в РФ и реестром росПО; подходит проектам в экосистеме Яндекса, но чувствительнее к шуму и иногда требует отдельной настройки диаризации.
SaluteSpeech от Сбера: кому подходит
SaluteSpeech — это речевой API Сбера (часть экосистемы Salute). Под капотом, собственные модели семейства GigaAM, которые показывают высокую точность на русском, а на шумном аудио в бенчмарке SimbirSoft SaluteSpeech обошёл SpeechKit. Сервис обрабатывает данные на серверах в РФ, расставляет пунктуацию и в тестах оказывается самым быстрым по скорости обработки.

Для старта у SaluteSpeech есть приятный бонус, 100 бесплатных минут распознавания в месяц, чего хватает, чтобы протестировать его на своих записях без затрат. Из ограничений, по отзывам, меньше языков, чем у западных движков, и просадка на очень быстрой речи. Если вам нужна не интеграция по API, а просто перевести пару файлов в текст, удобнее взять готовый сервис на базе того же Whisper или российских моделей, например с оплатой в рублях:
Главное здесь: SaluteSpeech от Сбера — это быстрый российский API на моделях GigaAM с обработкой в РФ, пунктуацией и 100 бесплатными минутами в месяц; силён на шуме и по скорости, но поддерживает меньше языков и проседает на очень быстром темпе речи.
Whisper: локально или через API?
Whisper от OpenAI — это открытая модель распознавания речи, обученная на 680 000 часов аудио. Её можно использовать двумя способами, и они кардинально отличаются по цене и приватности.
Первый, локальный запуск: исходный код модели открыт, вы скачиваете его бесплатно и гоняете на своём компьютере. Это лучший вариант для конфиденциальных данных (звук никуда не уходит) и для больших объёмов без оплаты за минуты, но нужна видеокарта и базовые навыки, мы разбирали это в гайде по запуску Whisper. Второй, облачный API OpenAI: платите около $0,006 за минуту, ничего не настраиваете, но данные уходят за рубеж, а оплата требует зарубежной карты.
Главный плюс Whisper, гибкость и нулевая цена при локальном запуске; главные минусы для России, сложность настройки и недоступность облачного API без иностранной карты. Если хочется качества Whisper без возни с установкой и в рублях, берут готовые сервисы-обёртки на его основе.
Главное здесь: Whisper — это бесплатная открытая модель: локальный запуск даёт нулевую цену и полную приватность, но требует видеокарты и настройки; облачный API OpenAI прост, но стоит около $0,006/мин, отправляет данные за рубеж и требует зарубежной карты.
Как протестировать распознавание речи на своём аудио
Любые чужие цифры точности индикативны, потому что зависят от тестового набора. Единственный надёжный способ выбрать, прогнать собственную запись через все три и сравнить ошибки. Это занимает полчаса и бесплатно.
- Возьмите репрезентативный фрагмент своего аудио: с типичным для вас шумом, темпом речи, акцентами и профессиональными терминами, а не идеальную студийную запись.
- Прогоните этот файл через бесплатные режимы: 100 минут в месяц у SaluteSpeech, локальный Whisper или его демо, пробный доступ Yandex SpeechKit.
- Сравните результаты по числу реальных ошибок именно на вашем аудио, а затем учтите цену за нужный объём и требования к данным (нужны ли серверы в РФ).
Такой мини-тест на своих данных стоит дороже любого рейтинга: вполне может оказаться, что на вашем типе записей убедительнее тот сервис, который в общих бенчмарках был вторым.
Главное здесь: не верьте общим цифрам точности вслепую: возьмите свою типичную запись, прогоните через бесплатные режимы всех трёх сервисов, сравните реальные ошибки и только потом учитывайте цену и требования 152-ФЗ.
Что выбрать под свою задачу
Универсального лидера нет, поэтому выбирайте от приоритета: точность на шуме, скорость, экосистема, приватность или цена.
Главное здесь: от приоритета: точность на шуме и скорость, SaluteSpeech; экосистема Яндекса, SpeechKit; бесплатно и приватно, локальный Whisper; пара файлов без кода, SaluteSpeech free или готовый сервис; персональные данные, SpeechKit или SaluteSpeech с серверами в РФ.
5 ошибок при выборе сервиса распознавания
Ошибка 1: «Выберу по одной средней цифре точности»
Что не так: средний WER из чужого теста почти ничего не говорит о вашем аудио; лидер на чистой записи может проигрывать на шуме.
Что делать: прогнать свою типичную запись через все три и сравнить реальные ошибки именно на ней.
Ошибка 2: «Загружу записи клиентов в зарубежный сервис»
Что не так: по 152-ФЗ запись голоса с персональными данными нельзя бездумно отправлять на зарубежные серверы.
Что делать: для клиентских записей брать SpeechKit или SaluteSpeech (обработка в РФ) либо локальный Whisper.
Ошибка 3: «Возьму Whisper API, он же дешёвый»
Что не так: облачный API OpenAI требует зарубежной карты и отправляет данные за границу, что в России неудобно и не всегда законно для ПДн.
Что делать: Whisper использовать локально (бесплатно и приватно), а для облака смотреть в сторону российских API.
Ошибка 4: «Сэкономлю на качестве записи»
Что не так: грязный звук с шумом и эхом роняет точность любого движка, и никакая модель этого полностью не вытянет.
Что делать: сначала почистить аудио и записывать ближе к микрофону, тогда любой сервис распознает точнее.
Ошибка 5: «Машинная расшифровка не требует вычитки»
Что не так: даже у лучшего сервиса остаются ошибки в терминах, именах и числах, особенно на шуме и быстрой речи.
Что делать: относиться к результату как к черновику и вычитывать важные документы вручную.
Вывод
Выбор между Yandex SpeechKit, SaluteSpeech и Whisper — это не поиск абсолютного чемпиона, а подбор под свою задачу. На чистом аудио все три распознают русскую речь хорошо, а вот на реальных записях с шумом и быстрым темпом результаты расходятся: по бенчмарку SimbirSoft на шуме точнее SaluteSpeech, он же обычно самый быстрый и даёт 100 бесплатных минут в месяц. SpeechKit логичен, если проект уже живёт в экосистеме Яндекса и нужны Realtime API и синтез речи. Whisper незаменим там, где важны нулевая цена и приватность: локальный запуск держит данные у вас, тогда как его облачный API упирается в зарубежную оплату. И главное правило, про которое забывают: для записей с персональными данными по 152-ФЗ берите российские сервисы с обработкой в РФ или локальный Whisper, а перед финальным решением обязательно прогоните своё типичное аудио через все три, потому что на ваших данных порядок мест вполне может оказаться другим.
Источники
📊 Бенчмарки и сравнения
- habr.com, 14.08.2024, бенчмарк SimbirSoft: SpeechKit, SaluteSpeech и SpeechFlow по WER
- tenchat.ru, сравнение API транскрибации по точности, цене и скорости (А. Кулясов)
- habr.com, обзор API распознавания речи
🔧 Документация сервисов
- yandex.cloud, Yandex SpeechKit (распознавание и синтез речи)
- developers.sber.ru, SaluteSpeech и сравнение со SpeechKit
- openai.com, открытая модель Whisper


