Распознавание речи на русском: SpeechKit, SaluteSpeech и Whisper по точности, цене и 152-ФЗ

Сравнение Yandex SpeechKit, SaluteSpeech и Whisper для распознавания русской речи: точность по реальным бенчмаркам, цена за час, скорость, диаризация и требования 152-ФЗ.

1 июня 2026 г.

14 мин чтения

Руслан Авдеев

распознавание речиyandex speechkitsalutespeechwhisperтранскрибацияASRраспознавание речи api152-ФЗречь в текстнейросети

Содержание статьи

Распознавание речи на русском: аудио проходит через три движка, Yandex SpeechKit (Яндекс, серверы в РФ), SaluteSpeech (Сбер, серверы в РФ, бесплатно 100 минут) и Whisper (OpenAI, open-source, локально или через API за рубежом), и превращается в текст. Сравниваем по точности, цене и 152-ФЗ

Перевести русскую речь в текст сегодня можно тремя популярными способами: облачным API Yandex SpeechKit, облачным SaluteSpeech от Сбера или открытой моделью Whisper от OpenAI. Они распознают речь по-разному, и единственного победителя нет: всё решают чистота аудио, скорость, цена и требования к данным. Разбираем по реальным бенчмаркам, кто точнее на русском, сколько стоит час распознавания и почему для персональных данных выбирают именно российские сервисы.

Это сравнение для тех, кто выбирает движок распознавания под конкретную задачу: транскрибацию интервью, расшифровку звонков колл-центра, субтитры к видео или голосового бота. Если же вам нужен общий обзор способов перевести аудио в текст, начните с нашего гайда по транскрибации, а про запуск Whisper своими руками есть отдельная инструкция.

📌 Главное за 30 секунд:

✔ Одного лучшего нет: на чистом аудио все три близки, а на шуме и сложной речи результаты сильно расходятся
✔ На шумном аудио в бенчмарке SimbirSoft SaluteSpeech заметно точнее SpeechKit
✔ SaluteSpeech часто быстрее, но проседает на очень быстрой речи; у него есть бесплатные 100 минут в месяц
✔ Whisper бесплатен и работает локально, но облачный API оплачивается только зарубежной картой
✔ Для персональных данных (152-ФЗ): SpeechKit и SaluteSpeech обрабатывают речь на серверах в РФ, Whisper, только локально
✔ Правильный выбор: протестировать все три на своём аудио, а не верить общим цифрам точности

Что мы сравниваем и почему нет одного победителя

Распознавание речи (по-английски ASR, automatic speech recognition) — это перевод звучащей речи в текст нейросетью на базе искусственного интеллекта. Оно лежит в основе транскрибации аудио и видео, субтитров, голосовых ботов и приложений, которые понимают команды голосом и анализируют записи разговоров. Качество принято измерять метрикой WER (word error rate), долей ошибочных слов: чем она ниже, тем чище распознавание. Но одна цифра обманчива: сервис, лидирующий на чистой студийной записи, может развалиться на шуме или быстром темпе, а на ровном дикторском аудио разница между движками почти исчезает.

Поэтому сравнивать стоит не по одной средней цифре, а по нескольким осям сразу: точность в ваших условиях, цена за нужный объём, скорость, наличие диаризации и пунктуации и, отдельно, где физически обрабатывается звук. Последнее особенно важно для персональных данных.

0,26 против 0,63

такова разница в доле ошибок (WER) между SaluteSpeech и Yandex SpeechKit на аудио с фоновым шумом в открытом бенчмарке команды SimbirSoft. На чистой записи оба показали близкий результат, но именно на шуме разрыв оказался почти двукратным. Вывод: «лучший» сервис зависит от того, насколько чистое у вас аудио, а не от абстрактного рейтинга.

Главное здесь: распознавание речи измеряют метрикой WER (доля ошибочных слов), но одной цифры мало; сравнивать нужно по нескольким осям сразу (точность в ваших условиях, цена, скорость, диаризация, где обрабатываются данные), потому что лидер на чистом аудио может проигрывать на шуме и быстрой речи.

Что такое SpeechKit, SaluteSpeech и Whisper?

Три сервиса представляют три разных подхода: два российских облачных API и одна открытая модель. Это принципиально влияет и на цену, и на приватность.

Сервис	Чьё и что это	Где обрабатывается
Yandex SpeechKit	Яндекс, облачный API (часть Yandex AI Studio), распознавание и синтез речи	Серверы в РФ, в реестре российского ПО
SaluteSpeech	Сбер, облачный API распознавания и синтеза речи	Серверы в РФ, бесплатный лимит 100 минут в месяц
Whisper	OpenAI, открытая (open-source) модель, обучена на 680 000 часов речи	Локально на вашем железе или через API OpenAI за рубежом

Ключевая развилка: SpeechKit и SaluteSpeech — это готовый сервис по подписке, где вы платите за минуты и не думаете про серверы. Whisper — это модель, которую вы либо запускаете у себя бесплатно (нужен компьютер с видеокартой), либо вызываете через платный API OpenAI. Под капотом у российских сервисов работают собственные модели; так, в основе многих решений Сбера лежит семейство GigaAM, которое на сложном русском аудио обходит Whisper по точности.

Главное здесь: SpeechKit (Яндекс) и SaluteSpeech (Сбер) — это облачные API с обработкой на серверах в РФ и оплатой за минуты; Whisper (OpenAI) — это открытая модель, которую запускают бесплатно локально или вызывают через зарубежный API; различие в подходе определяет и цену, и приватность.

Кто точнее распознаёт русскую речь?

На чистом дикторском аудио все три справляются хорошо, разница в пределах нескольких процентов ошибок. Картина меняется, как только запись становится реальной: с шумом, перебивками, быстрым темпом и терминами.

В открытом бенчмарке SimbirSoft на естественной речи с фоновым шумом SaluteSpeech показал WER около 0,26, а Yandex SpeechKit, около 0,63, то есть на шуме ошибался заметно чаще. При этом на очень быстрой речи (ускорение в два раза) уже сам SaluteSpeech начинал возвращать пустой результат. Whisper в независимых тестах даёт примерно 95-97% точности на чистом русском и 88-92% на сложных записях с шумом и акцентами, но на по-настоящему трудном русском аудио российские модели вроде GigaAM нередко оказываются точнее.

«SpeechKit более чувствительна к фоновому шуму и игнорирует пунктуацию. SaluteSpeech не может распознавать высокий темп речи. SpeechFlow систематически порождает несуществующие слова».

— Екатерина, IT-архитектор ML-команды SimbirSoft, бенчмарк распознавания речи на Habr, 14.08.2024.

Тот же бенчмарк честно оговаривает, что метрика WER «является неоптимальной для сопоставления работы систем»: цифры дают лишь общую картину, а реальное качество нужно смотреть на своих данных. Поэтому единственно верный ответ на вопрос «кто точнее» — это «проверьте на собственном аудио», о чём будет отдельный раздел.

Главное здесь: на чистом аудио все три сервиса близки, а на реальном расходятся: по бенчмарку SimbirSoft на шуме SaluteSpeech (WER около 0,26) заметно точнее SpeechKit (около 0,63), но сам пасует на очень быстрой речи; Whisper силён на чистом русском, а на трудном аудио российские модели часто впереди.

Сколько стоит распознавание речи?

Цена сильно зависит от подхода. Облачные API берут плату за минуты, Whisper бесплатен локально, но требует вашего железа, а его облачный API считается в долларах.

Сервис	Сколько стоит	Бесплатно
Yandex SpeechKit	Pay-as-you-go в рублях, по обзорам около 0,60 ₽/мин (точные тарифы в документации)	Пробный доступ через Yandex Cloud
SaluteSpeech	Freemium около 1,20 ₽/мин, дешевле при пакете (около 0,60 ₽/мин на бизнес-объёмах)	100 минут в месяц бесплатно
Whisper	Локально 0 ₽ (нужен свой GPU); API OpenAI около $0,006/мин	Полностью бесплатно при локальном запуске

Если перевести в час записи, облачное распознавание выходит примерно в 36-72 ₽ за час у российских сервисов и около $0,36 за час у Whisper API. Цифры по тарифам облаков стоит перепроверять в документации: они зависят от режима (синхронный или асинхронный) и объёма. Для разовых задач выгоднее бесплатные лимиты, для регулярного потока, пакеты или локальный Whisper.

Главное здесь: облачное распознавание стоит примерно 36-72 ₽ за час у SpeechKit и SaluteSpeech и около $0,36/час у Whisper API; локальный Whisper бесплатен, но требует видеокарты, а у SaluteSpeech есть 100 бесплатных минут в месяц; точные тарифы облаков уточняйте в документации.

Чем отличаются скорость, диаризация и пунктуация?

Помимо точности и цены, на практике решают три вещи: как быстро сервис возвращает текст, умеет ли он делить речь по спикерам (диаризация) и расставляет ли пунктуацию.

По замерам Алексея Кулясова на одинаковом файле SaluteSpeech оказался самым быстрым (обработка около 84 секунд), тогда как SpeechKit был медленнее (около 270 секунд), хотя и чуть точнее в том тесте. Диаризация (разделение «кто говорит») есть у всех, но в деталях различается: например, в части версий API SpeechKit её приходится подключать отдельно. Пунктуацию SaluteSpeech и SpeechKit расставляют сами, а Whisper, в зависимости от версии и обвязки.

SaluteSpeech стоит брать «для скорости обработки», SpeechKit удобен «при работе в Yandex Cloud»; при этом SaluteSpeech самый быстрый из протестированных, но с точностью около 88% и поддержкой лишь нескольких языков.

— Алексей Кулясов, сравнение API транскрибации на TenChat (формулировка сокращена).

Отсюда практический вывод: если важна скорость потока (например, расшифровка тысяч звонков), смотрите на SaluteSpeech; если проект уже живёт в инфраструктуре Яндекса, логичнее SpeechKit; а если нужна максимальная гибкость и контроль, Whisper.

Главное здесь: SaluteSpeech обычно самый быстрый, SpeechKit удобен внутри экосистемы Яндекса; диаризация есть у всех, но иногда подключается отдельно; пунктуацию облака расставляют сами, а у Whisper это зависит от версии и обвязки.

Почему для персональных данных выбирают SpeechKit или SaluteSpeech?

Это ось, которую часто упускают, хотя для бизнеса она решающая. Когда вы отправляете запись голоса в облако, вы передаёте данные третьему лицу, а по 152-ФЗ запись речи может относиться к персональным, а иногда и к биометрическим данным.

Yandex SpeechKit и SaluteSpeech обрабатывают звук на серверах в России и входят в контур российских облаков (SpeechKit, в реестре отечественного ПО). Для расшифровки звонков с именами, телефонами и адресами клиентов это обычно обязательное условие. Whisper через API OpenAI отправляет аудио на зарубежные серверы, а оплата требует иностранной карты, поэтому для чувствительных данных подходит только его локальный запуск, когда звук не покидает ваш компьютер. Тогда Whisper становится самым приватным вариантом из трёх. Подробнее про риски облачной обработки звука мы писали в разборе шумоподавления и приватности записи.

Главное здесь: по 152-ФЗ запись голоса может быть персональными данными, поэтому для клиентских записей выбирают SpeechKit или SaluteSpeech (серверы и обработка в РФ, реестр росПО); Whisper подходит для чувствительных данных только при локальном запуске, зато тогда он самый приватный.

Yandex SpeechKit: кому подходит

SpeechKit — это речевой модуль платформы Yandex AI Studio: распознавание и генерация (синтез) речи, Realtime API для голосовых агентов и диалогов с откликом меньше секунды, обработка результата языковой моделью и кастомные голоса Brand Voice (подробно про синтез речи, в обзоре нейросетей для озвучки текста). Есть и вариант SpeechKit Hybrid для развёртывания на собственной инфраструктуре, что важно госсектору и крупным компаниям.

Страница Yandex AI Speech (SpeechKit) в Yandex AI Studio: модуль объединяет распознавание и синтез речи, блоки Realtime API для голосовых агентов, Распознавание речи SpeechKit и Синтез речи SpeechKit, кнопка Начать работу

Сильная сторона, экосистема и инструменты для разработчиков: REST и gRPC API, Realtime-протокол, интеграции внутри Yandex Cloud. Слабее всего SpeechKit, как показал бенчмарк, держится на сильном фоновом шуме, и в части версий API диаризацию нужно подключать отдельно. Полный набор функций и тарифов, в карточке сервиса:

Главное здесь: Yandex SpeechKit — это речевой модуль Yandex AI Studio с распознаванием, синтезом, Realtime API и кастомными голосами, серверами в РФ и реестром росПО; подходит проектам в экосистеме Яндекса, но чувствительнее к шуму и иногда требует отдельной настройки диаризации.

SaluteSpeech от Сбера: кому подходит

SaluteSpeech — это речевой API Сбера (часть экосистемы Salute). Под капотом, собственные модели семейства GigaAM, которые показывают высокую точность на русском, а на шумном аудио в бенчмарке SimbirSoft SaluteSpeech обошёл SpeechKit. Сервис обрабатывает данные на серверах в РФ, расставляет пунктуацию и в тестах оказывается самым быстрым по скорости обработки.

Страница SaluteSpeech на developers.sber.ru: синтез и распознавание речи от Сбера, кнопка Стоимость и живое демо с вкладками Синтезировать речь и Распознать речь, выбором пола, языка и эмоции

Что на странице SaluteSpeech без регистрации

На developers.sber.ru у SaluteSpeech прямо на странице работает живое демо, где без регистрации можно и синтезировать, и распознать речь. В режиме распознавания доступно пять языков (русский, казахский, английский, киргизский, узбекский), а расшифровку готовых файлов Сбер предлагает делать через Telegram-бот. На вкладке «Стоимость» видно, что, помимо бесплатных 100 минут, регулярное использование идёт пакетами примерно от 10 000 ₽ с минимальной суммой заказа около 19 500 ₽, плюс индивидуальные условия для корпораций.

Вывод: попробовать качество распознавания на своём примере можно бесплатно и без кода прямо в демо, но для постоянной работы по API закладывайте не только цену за минуту, а минимальный платёж за пакет.

Для старта у SaluteSpeech есть приятный бонус, 100 бесплатных минут распознавания в месяц, чего хватает, чтобы протестировать его на своих записях без затрат. Из ограничений, по отзывам, меньше языков, чем у западных движков, и просадка на очень быстрой речи. Если вам нужна не интеграция по API, а просто перевести пару файлов в текст, удобнее взять готовый сервис на базе того же Whisper или российских моделей, например с оплатой в рублях:

Главное здесь: SaluteSpeech от Сбера — это быстрый российский API на моделях GigaAM с обработкой в РФ, пунктуацией и 100 бесплатными минутами в месяц; силён на шуме и по скорости, но поддерживает меньше языков и проседает на очень быстром темпе речи.

Whisper: локально или через API?

Whisper от OpenAI — это открытая модель распознавания речи, обученная на 680 000 часов аудио. Её можно использовать двумя способами, и они кардинально отличаются по цене и приватности.

Первый, локальный запуск: исходный код модели открыт, вы скачиваете его бесплатно и гоняете на своём компьютере. Это лучший вариант для конфиденциальных данных (звук никуда не уходит) и для больших объёмов без оплаты за минуты, но нужна видеокарта и базовые навыки, мы разбирали это в гайде по запуску Whisper. Второй, облачный API OpenAI: платите около $0,006 за минуту, ничего не настраиваете, но данные уходят за рубеж, а оплата требует зарубежной карты.

Главный плюс Whisper, гибкость и нулевая цена при локальном запуске; главные минусы для России, сложность настройки и недоступность облачного API без иностранной карты. Если хочется качества Whisper без возни с установкой и в рублях, берут готовые сервисы-обёртки на его основе.

Главное здесь: Whisper — это бесплатная открытая модель: локальный запуск даёт нулевую цену и полную приватность, но требует видеокарты и настройки; облачный API OpenAI прост, но стоит около $0,006/мин, отправляет данные за рубеж и требует зарубежной карты.

Как протестировать распознавание речи на своём аудио

Любые чужие цифры точности индикативны, потому что зависят от тестового набора. Единственный надёжный способ выбрать, прогнать собственную запись через все три и сравнить ошибки. Это занимает полчаса и бесплатно.

Возьмите репрезентативный фрагмент своего аудио: с типичным для вас шумом, темпом речи, акцентами и профессиональными терминами, а не идеальную студийную запись.
Прогоните этот файл через бесплатные режимы: 100 минут в месяц у SaluteSpeech, локальный Whisper или его демо, пробный доступ Yandex SpeechKit.
Сравните результаты по числу реальных ошибок именно на вашем аудио, а затем учтите цену за нужный объём и требования к данным (нужны ли серверы в РФ).

Такой мини-тест на своих данных стоит дороже любого рейтинга: вполне может оказаться, что на вашем типе записей убедительнее тот сервис, который в общих бенчмарках был вторым.

Главное здесь: не верьте общим цифрам точности вслепую: возьмите свою типичную запись, прогоните через бесплатные режимы всех трёх сервисов, сравните реальные ошибки и только потом учитывайте цену и требования 152-ФЗ.

Что выбрать под свою задачу

Универсального лидера нет, поэтому выбирайте от приоритета: точность на шуме, скорость, экосистема, приватность или цена.

Дерево выбора сервиса распознавания речи: для шумного аудио и сложной речи подойдёт SaluteSpeech, для максимальной скорости тоже SaluteSpeech, для проектов в экосистеме Яндекса Yandex SpeechKit, для бесплатной и конфиденциальной работы Whisper локально, для пары файлов без кода SaluteSpeech free или готовый сервис, для персональных данных по 152-ФЗ SpeechKit или SaluteSpeech с серверами в РФ

Главное здесь: от приоритета: точность на шуме и скорость, SaluteSpeech; экосистема Яндекса, SpeechKit; бесплатно и приватно, локальный Whisper; пара файлов без кода, SaluteSpeech free или готовый сервис; персональные данные, SpeechKit или SaluteSpeech с серверами в РФ.

5 ошибок при выборе сервиса распознавания

Ошибка 1: «Выберу по одной средней цифре точности»

Что не так: средний WER из чужого теста почти ничего не говорит о вашем аудио; лидер на чистой записи может проигрывать на шуме.

Что делать: прогнать свою типичную запись через все три и сравнить реальные ошибки именно на ней.

Ошибка 2: «Загружу записи клиентов в зарубежный сервис»

Что не так: по 152-ФЗ запись голоса с персональными данными нельзя бездумно отправлять на зарубежные серверы.

Что делать: для клиентских записей брать SpeechKit или SaluteSpeech (обработка в РФ) либо локальный Whisper.

Ошибка 3: «Возьму Whisper API, он же дешёвый»

Что не так: облачный API OpenAI требует зарубежной карты и отправляет данные за границу, что в России неудобно и не всегда законно для ПДн.

Что делать: Whisper использовать локально (бесплатно и приватно), а для облака смотреть в сторону российских API.

Ошибка 4: «Сэкономлю на качестве записи»

Что не так: грязный звук с шумом и эхом роняет точность любого движка, и никакая модель этого полностью не вытянет.

Что делать: сначала почистить аудио и записывать ближе к микрофону, тогда любой сервис распознает точнее.

Ошибка 5: «Машинная расшифровка не требует вычитки»

Что не так: даже у лучшего сервиса остаются ошибки в терминах, именах и числах, особенно на шуме и быстрой речи.

Что делать: относиться к результату как к черновику и вычитывать важные документы вручную.

Вывод

Выбор между Yandex SpeechKit, SaluteSpeech и Whisper — это не поиск абсолютного чемпиона, а подбор под свою задачу. На чистом аудио все три распознают русскую речь хорошо, а вот на реальных записях с шумом и быстрым темпом результаты расходятся: по бенчмарку SimbirSoft на шуме точнее SaluteSpeech, он же обычно самый быстрый и даёт 100 бесплатных минут в месяц. SpeechKit логичен, если проект уже живёт в экосистеме Яндекса и нужны Realtime API и синтез речи. Whisper незаменим там, где важны нулевая цена и приватность: локальный запуск держит данные у вас, тогда как его облачный API упирается в зарубежную оплату. И главное правило, про которое забывают: для записей с персональными данными по 152-ФЗ берите российские сервисы с обработкой в РФ или локальный Whisper, а перед финальным решением обязательно прогоните своё типичное аудио через все три, потому что на ваших данных порядок мест вполне может оказаться другим.

Источники

📊 Бенчмарки и сравнения

habr.com, 14.08.2024, бенчмарк SimbirSoft: SpeechKit, SaluteSpeech и SpeechFlow по WER
tenchat.ru, сравнение API транскрибации по точности, цене и скорости (А. Кулясов)
habr.com, обзор API распознавания речи

🔧 Документация сервисов

yandex.cloud, Yandex SpeechKit (распознавание и синтез речи)
developers.sber.ru, SaluteSpeech и сравнение со SpeechKit
openai.com, открытая модель Whisper

Часто задаваемые вопросы

Что точнее распознаёт русскую речь: SpeechKit, SaluteSpeech или Whisper?

Однозначного победителя нет, всё зависит от аудио. На чистой студийной записи все три близки, разница в пределах нескольких процентов ошибок. На реальном аудио с шумом, по открытому бенчмарку SimbirSoft, SaluteSpeech заметно точнее (WER около 0,26 против 0,63 у SpeechKit). Whisper силён на чистом русском (95-97%), но проседает на шуме и акцентах, а на трудном русском его обходят российские модели вроде GigaAM. Надёжный способ выбрать, прогнать своё типичное аудио через все три и сравнить реальные ошибки.

Что дешевле: Yandex SpeechKit, SaluteSpeech или Whisper?

Самый дешёвый вариант, локальный Whisper: сама модель бесплатна, платите только за электричество и своё железо (нужна видеокарта). Из облачных сервисов SaluteSpeech даёт 100 бесплатных минут в месяц, дальше около 1,20 ₽/мин на freemium и дешевле на пакетах. SpeechKit стоит по обзорам около 0,60 ₽/мин. Облачный API Whisper от OpenAI, около $0,006 за минуту, но требует зарубежной карты. В пересчёте на час облако выходит примерно в 36-72 ₽, точные тарифы уточняйте в документации.

Какой сервис распознавания речи лучше для 152-ФЗ и персональных данных?

Для записей с персональными данными (имена, телефоны, адреса клиентов) подходят Yandex SpeechKit и SaluteSpeech: они обрабатывают звук на серверах в России, а SpeechKit входит в реестр отечественного ПО. Облачный API Whisper от OpenAI отправляет аудио на зарубежные серверы, что для персональных данных по 152-ФЗ рискованно. Если нужен именно Whisper и при этом приватность, запускайте его локально на своём компьютере, тогда звук никуда не передаётся, и это самый приватный из трёх вариантов.

Что такое SaluteSpeech и чем он отличается от SmartSpeech?

SaluteSpeech — это облачный сервис распознавания и синтеза речи от Сбера, часть экосистемы Salute. Под капотом у него собственные модели семейства GigaAM, которые показывают высокую точность на русском. Не путайте его со SmartSpeech: под этим названием есть отдельный российский сервис речевой аналитики от другой компании (ООО «Речевые технологии» из Иннополиса), не связанный со Сбером. SaluteSpeech ориентирован на распознавание речи через API, с бесплатным лимитом 100 минут в месяц и обработкой на серверах в РФ.

Можно ли пользоваться Whisper из России?

Да, но с оговорками. Локальный запуск Whisper полностью доступен из России: модель открытая и бесплатная, скачивается с GitHub и работает на вашем компьютере без интернета и без оплаты. А вот облачный API OpenAI оплачивается только зарубежной картой, и данные уходят на зарубежные серверы, поэтому для России это неудобно, особенно для персональных данных. Если хочется качества Whisper без настройки и в рублях, берут готовые российские сервисы-обёртки на его основе с оплатой картой РФ.

У какого сервиса есть бесплатный тариф?

Бесплатно работать можно у всех трёх, но по-разному. Whisper полностью бесплатен при локальном запуске, без лимитов по объёму, нужна лишь видеокарта. SaluteSpeech даёт 100 бесплатных минут распознавания в месяц, чего достаточно, чтобы протестировать его на своих записях. У Yandex SpeechKit постоянного бесплатного тарифа нет, но есть пробный доступ через Yandex Cloud для теста. Готовые сервисы-обёртки на базе Whisper тоже обычно дают небольшой бесплатный лимит (например, 15 минут).

Какой сервис распознаёт речь быстрее всех?

По замерам Алексея Кулясова на одинаковом файле самым быстрым оказался SaluteSpeech, около 84 секунд на обработку, тогда как Yandex SpeechKit был заметно медленнее (около 270 секунд), хотя в том тесте чуть точнее. Скорость локального Whisper зависит от вашей видеокарты и выбранной модели: на мощном GPU он быстрый, на слабом или на процессоре, медленный. Если вам нужно обрабатывать большой поток записей (например, звонки колл-центра), скорость SaluteSpeech становится весомым преимуществом.

Поддерживают ли эти сервисы диаризацию и пунктуацию?

Диаризация (разделение речи по спикерам, «кто говорит») есть у всех трёх, но реализована по-разному: например, в части версий API Yandex SpeechKit её нужно подключать отдельно. Пунктуацию SaluteSpeech и SpeechKit расставляют автоматически, а у Whisper её наличие и качество зависят от версии модели и обвязки. Если для вас критично деление по спикерам (расшифровка интервью, совещаний, звонков), заранее проверьте, как именно конкретный сервис и его версия API отдают спикеров и знаки препинания.

Что выбрать для расшифровки звонков колл-центра?

Для колл-центра обычно важны три вещи: точность на телефонном аудио с шумом, скорость на большом потоке и соответствие 152-ФЗ, ведь в звонках есть персональные данные. По этим критериям чаще выбирают российские сервисы: SaluteSpeech силён на шуме и самый быстрый в тестах, SpeechKit удобен, если инфраструктура уже в Yandex Cloud. Оба обрабатывают данные в РФ. Whisper для звонков с ПДн подойдёт только в локальном варианте. Перед внедрением обязательно протестируйте сервисы на своих реальных записях звонков.

Нужен ли программист, чтобы пользоваться этими сервисами?

Для прямой работы с SpeechKit, SaluteSpeech и Whisper через API нужны базовые навыки разработки: это инструменты для интеграции в продукты. Если вам просто надо перевести несколько записей в текст, программист не нужен, возьмите готовый сервис транскрибации (многие из них работают на тех же Whisper или российских моделях) с веб-интерфейсом и оплатой в рублях. Локальный Whisper занимает промежуточное положение: кода писать не обязательно, но придётся разобраться с установкой, что мы разбираем в отдельном гайде.

Была ли статья полезной?

Ваш голос помогает нам делать статьи лучше.

Сервисы из этой статьи

Yandex SpeechKit

Модуль AI Speech в Yandex AI Studio: распознавание и синтез речи, Realtime API голосовых агентов с откликом < 1 секунды, LLM-обработка результатов, Brand Voice (Lite + Premium) и SpeechKit Hybrid для on-premises. ООО «Яндекс.Облако», в реестре российского ПО.

ЦенаПо запросу

Whisper (OpenAI)

Free

Open-source модель автоматического распознавания речи (ASR) от OpenAI на архитектуре Transformer encoder-decoder. Обучена на 680 000 часов многоязычных данных, поддерживает транскрипцию и перевод на английский. Доступна как через API OpenAI, так и для self-hosted-запуска.

ЦенаБесплатный тариф

Any2Text