Whisper (OpenAI)

Бесплатный тариф

Open-source модель автоматического распознавания речи (ASR) от OpenAI на архитектуре Transformer encoder-decoder. Обучена на 680 000 часов многоязычных данных, поддерживает транскрипцию и перевод на английский. Доступна как через API OpenAI, так и для self-hosted-запуска.

openai.com

Основная информация

Страна

США (OpenAI)

Развёртывание

Open-source (self-hosted) + API OpenAI

Языки

Многоязычная модель — около ⅔ обучающих данных на английском, ⅓ на других языках, Английский — точность близкая к человеческой +1

Поддержка

Документация platform.openai.com, Open-source-репозиторий на GitHub +2

Стоимость

Бесплатно

Пробный период

Бесплатный тариф

Технические характеристики

Платформы: API OpenAI (api.openai.com) + open-source (GitHub) для self-hosted
Модель развёртывания: API + Self-hosted
Юридическое лицо: OpenAI (OpenAI Foundation + OpenAI Group, public benefit corporation)
Год копирайта: © 2015–2026
Дата релиза: 21 сентября 2022 года
Архитектура модели: Transformer encoder-decoder (sequence-to-sequence ASR)
Объём обучающих данных: 680 000 часов многоязычных и многозадачных размеченных данных
Предобработка аудио: 30-секундные фрагменты → log-mel спектрограмма
Размеры модели: tiny / base / small / medium / large (точный список в model card на GitHub)
Языки: Многоязычная модель (около ⅓ обучающих данных — не на английском)
Заявленная точность: Близкая к человеческой на английском; на 50 % меньше ошибок в zero-shot vs специализированных моделей
Тайм-коды: Таймкоды на уровне фраз
Определение языка: Автоматическое определение языка
Перевод речи (Speech Translation): Перевод речи на английский (превосходит state-of-the-art в zero-shot на CoVoST2)
Open-source: Да — исходный код и инференс-код на GitHub
API: Да — через api.openai.com
Documentation: platform.openai.com (API), GitHub model card (open-source)
Страна регистрации: США

Поддержка и SLA

Каналы поддержки

Документация platform.openai.comOpen-source-репозиторий на GitHubФорум разработчиков (community.openai.com)Справочный центр (help.openai.com)

Интеграции Whisper (OpenAI)

Категории интеграций

API-доступOpen-sourceДокументацияСообщество

Ключевые интеграции

OpenAI API— API-доступофициальная
GitHub (репозиторий openai/whisper)— Open-sourceофициальная
Hugging Face (порты модели)— Open-source
platform.openai.com (документация)— Документацияофициальная
community.openai.com (форум)— Сообществоофициальная

Тарифы Whisper (OpenAI)

Open-source (self-hosted)

до 1 пользователей

Бесплатно

✓Бесплатное скачивание исходного кода с GitHub
✓Локальный запуск на своём GPU
✓Все размеры модели (tiny / base / small / medium / large — точный список в карточке модели)
✓Без ограничений по объёму обработки
✓Полный контроль над данными — подходит для конфиденциальных сценариев
✓Стоимость инфраструктуры — за счёт пользователя

API OpenAI (pay-as-you-go)

Популярный

до 1 пользователей

По запросу

✓Облачная обработка через api.openai.com
✓Pay-as-you-go-модель оплаты
✓Без своей инфраструктуры и GPU
✓Документация и SDK на platform.openai.com
✓Поддержка через форум разработчиков и справочный центр
✓Для развернутого ценообразования смотрите openai.com/api/pricing

Сравнение тарифов Whisper (OpenAI)
Тариф	Цена	Пользователи	Ключевые возможности
Open-source (self-hosted)	Бесплатно	до 1	Бесплатное скачивание исходного кода с GitHub, Локальный запуск на своём GPU, Все размеры модели (tiny / base / small / medium / large — точный список в карточке модели)
API OpenAI (pay-as-you-go)TOP	По запросу	до 1	Облачная обработка через api.openai.com, Pay-as-you-go-модель оплаты, Без своей инфраструктуры и GPU

Обзор Whisper (OpenAI)

Что такое Whisper?

Whisper — это open-source модель автоматического распознавания речи (ASR) от OpenAI, представленная 21 сентября 2022 года. Модель обучена на 680 000 часов многоязычных и многозадачных размеченных данных, собранных из веб-источников. По заявлению OpenAI, такой большой и разнообразный набор данных повышает устойчивость модели к акцентам, фоновому шуму и технической лексике, а также позволяет выполнять транскрипцию на разных языках и переводить речь с этих языков на английский.

Правообладатель — OpenAI (© 2015–2026). По структуре OpenAI состоит из некоммерческого OpenAI Foundation и коммерческой OpenAI Group (public benefit corporation): фонд управляет группой, которая действует как общественно полезная корпорация. Миссия — сделать так, чтобы общий искусственный интеллект приносил пользу всему человечеству. Whisper — один из исследовательских релизов в открытом доступе.

Архитектура и подход

Whisper построена как простой сквозной подход на базе Transformer encoder-decoder. Входное аудио разбивается на 30-секундные фрагменты, конвертируется в логарифмированную мел-спектрограмму и подаётся в энкодер. Декодер обучается генерировать текст с помощью специальных токенов, которые позволяют выполнять разные задачи:

Определение языка
Таймкоды на уровне фраз
Многоязычная транскрипция речи
Перевод речи на английский

Около трети обучающих данных — речь не на английском. Модели попеременно даётся задача либо транскрибировать речь на исходном языке, либо переводить на английский. Такой подход оказался особенно эффективным для обучения переводу речи в текст: в режиме zero-shot Whisper превосходит лучшие на 2022 год модели на тесте перевода на английский CoVoST2.

Точность и устойчивость

Поскольку модель обучалась на большом и разнообразном наборе данных и не проходила дополнительное обучение под конкретный набор, она не превосходит специализированные модели, оптимизированные под LibriSpeech (один из самых конкурентных эталонных тестов). Однако при оценке zero-shot на множестве разнообразных наборов данных Whisper гораздо более устойчива и допускает на 50 % меньше ошибок по сравнению с такими моделями.

Для английского языка модель демонстрирует точность и надёжность распознавания, близкую к человеческой. На многих других языках точность также высокая благодаря разнообразию обучающего набора — но качество зависит от объёма данных по конкретному языку.

Способы использования

1. Open-source (self-hosted)

OpenAI открыли исходный код моделей и инференс-код
Модель скачивается с GitHub и запускается на своём железе
Подходит, если нужен полный контроль над данными или большой объём
Требуется GPU с достаточным объёмом видеопамяти
Доступны размеры модели — обычно tiny, base, small, medium, large (актуальные размеры — в карточке модели на GitHub)

2. API OpenAI

Доступ через Платформу API на api.openai.com
Облачная обработка без своей инфраструктуры
Pay-as-you-go-модель оплаты
Точные цены — на странице OpenAI Pricing (openai.com/api/pricing/)
Документация для разработчиков — platform.openai.com

Что можно сделать с Whisper

Транскрипция аудио и видео в текст на разных языках
Перевод речи с любого поддерживаемого языка на английский
Автоматическое определение языка аудиозаписи
Генерация субтитров с тайм-кодами
Голосовые интерфейсы в собственных приложениях через API
База для других сервисов транскрибации (многие коммерческие сервисы работают на Whisper «под капотом»)

Кому подходит Whisper?

Разработчики — встроить транскрибацию в свой продукт через API или локально через open-source.
Исследователи — использовать как основу для дальнейших исследований в области распознавания речи (в том числе zero-shot и устойчивости к шуму).
Контент-команды — транскрибация и субтитры через интеграцию с собственным пайплайном.
Стартапы — построить продукт на базе open-source без лицензионных отчислений за модель.
Конфиденциальные сценарии — self-hosted-запуск даёт полный контроль над данными (для медицины, юриспруденции, госсектора).

Ресурсы

Статья (Whisper paper) — на сайте OpenAI
Карточка модели (model card) — на GitHub
Исходный код и инференс-код — на GitHub
Документация API — platform.openai.com
Форум разработчиков OpenAI — community.openai.com
Справочный центр и поддержка — help.openai.com

Показать полное описаниеСкрыть описание

Плюсы и минусы Whisper (OpenAI)

+Преимущества

✓Open-source — бесплатное скачивание исходного кода и моделей
✓Возможность self-hosted-запуска на своём GPU для полного контроля над данными
✓Огромный обучающий набор (680 000 часов) — устойчивость к шумам, акцентам, тех.лексике
✓50 % меньше ошибок vs специализированных моделей в zero-shot-сценариях
✓Стандарт-де-факто: многие коммерческие сервисы транскрибации (TurboScribe, Bukvitsa, Any2Text и другие) используют Whisper как движок
✓Подходит для конфиденциальных задач (self-hosted без передачи данных в облако)
✓Гибкость размеров модели — от tiny на CPU до large на сильных GPU
✓API OpenAI как альтернатива self-hosted без своей инфраструктуры
✓Активное сообщество разработчиков и множество готовых обёрток

−Недостатки

✗Нет коробочного веб-интерфейса — модель и API, работа через код
✗Self-hosted требует мощного GPU и DevOps-навыков
✗Не превосходит специализированные модели на узких бенчмарках типа LibriSpeech
✗Точность сильно зависит от языка — английский лучше всего, экзотические языки хуже
✗Через API OpenAI оплата идёт через Stripe в долларах — российские карты, скорее всего, не пройдут
✗Нет потокового распознавания low-latency через API в исходном виде
✗Конкретные цены API не в материалах релиз-статьи — нужно смотреть openai.com/api/pricing
✗Лицензия исходного кода уточняется в репозитории на GitHub

Сценарии использования Whisper (OpenAI)

Стартап встраивает транскрибацию через API без своей AI-команды

Регистрация на platform.openai.com → получение API-ключа → 5 строк кода для отправки аудио в Whisper API. Pay-as-you-go даёт быстрый старт без капитальных вложений в инфраструктуру.

Команда с конфиденциальными данными разворачивает self-hosted

Скачивание модели нужного размера с GitHub → запуск на своём GPU → данные не покидают периметр компании. Подходит для медицины, юриспруденции, госсектора.

Контент-сервис строит продукт на open-source Whisper

TurboScribe, Bukvitsa, Any2Text и многие другие коммерческие сервисы транскрибации работают на Whisper. Open-source даёт основу — поверх строится UI, биллинг, AI-функции.

Исследователь использует zero-shot-устойчивость в исследованиях

Whisper показывает на 50 % меньше ошибок на разнообразных датасетах в zero-shot — это удобный baseline для исследований по устойчивости речевого распознавания.

Разработчик переводит речь на английский для международной аудитории

Speech Translation в Whisper превосходит state-of-the-art (на 2022 год) на CoVoST2 в zero-shot. Можно переводить голосовые интервью на разных языках сразу в английский текст без двух-этапного пайплайна.

Видеомейкер генерирует субтитры через локальный Whisper

Self-hosted Whisper с тайм-кодами на уровне фраз → экспорт SRT для добавления субтитров в видеоредактор. Нет ограничений по объёму, оплачивается только своя инфраструктура.

Доверие и масштаб

Whisper стал де-факто стандартом open-source ASR после релиза 21 сентября 2022 года. На его основе работают многие коммерческие сервисы транскрибации (TurboScribe, Bukvitsa, Any2Text, Guru Scribe и другие). По заявлению OpenAI, модель допускает на 50 % меньше ошибок в zero-shot-сценариях по сравнению со специализированными моделями LibriSpeech.

Известные клиенты

TurboScribe (использует Whisper как движок)Bukvitsa (Whisper-based, по заявлению сервиса)Any2Text (Whisper-based, по заявлению сервиса)Guru Scribe (Whisper-based, по заявлению сервиса)Множество других коммерческих и open-source-сервисов на Whisper

Награды

🏆Релиз Whisper — один из ключевых open-source-релизов OpenAI 2022 года
🏆Превосходит state-of-the-art в zero-shot на CoVoST2 (перевод речи)
🏆−50 % WER в zero-shot vs специализированных LibriSpeech-моделей

Отзывы о Whisper (OpenAI)

Поделитесь опытом использования

Помогите другим сделать правильный выбор — ваш отзыв будет полезен

Оставить отзыв

Часто задаваемые вопросы о Whisper (OpenAI)

?Что такое Whisper от OpenAI?

Whisper — это open-source модель автоматического распознавания речи (ASR) от OpenAI, представленная 21 сентября 2022 года. Архитектура — Transformer encoder-decoder, обучение на 680 000 часах многоязычных и многозадачных размеченных данных. Модель умеет транскрибировать речь на разных языках, переводить речь с этих языков на английский, определять язык и расставлять таймкоды на уровне фраз.

?Whisper бесплатный?

Open-source-вариант полностью бесплатен — модели и инференс-код доступны на GitHub (github.com/openai/whisper). Для self-hosted-запуска нужно своё железо (обычно GPU). API OpenAI работает по pay-as-you-go-модели — конкретные цены публикуются на странице openai.com/api/pricing, в материалах релиз-статьи цена не зафиксирована.

?Какая точность у Whisper?

По заявлению OpenAI, для английского языка точность близкая к человеческой. На разнообразных датасетах в zero-shot Whisper допускает на 50 % меньше ошибок по сравнению с моделями, специализированными под бенчмарк LibriSpeech. На узких эталонных тестах вроде LibriSpeech специализированные модели могут быть точнее, но Whisper — гораздо более устойчивый универсальный движок благодаря большому и разнообразному набору обучения.

?Какие языки поддерживает Whisper?

Whisper — многоязычная модель: около ⅓ обучающего набора составляет речь не на английском. Конкретный список поддерживаемых языков указан в карточке модели на GitHub. Точность зависит от объёма данных по конкретному языку — для русского, испанского, французского, немецкого, китайского и других распространённых языков точность высокая.

?Можно ли запустить Whisper локально?

Да, OpenAI открыли исходный код моделей и инференс-код на GitHub (github.com/openai/whisper). Для локального запуска рекомендуется GPU с достаточным объёмом видеопамяти. Доступны модели разных размеров — от tiny (для слабого железа) до large (для GPU). Точный набор размеров и системные требования см. в карточке модели на GitHub.

?Чем Whisper отличается от готовых сервисов транскрибации?

Whisper — это модель и API, а не продукт с UI. Чтобы пользоваться нужно либо встроить API в свой код, либо развернуть open-source-модель. Многие коммерческие сервисы транскрибации (TurboScribe, Bukvitsa, Any2Text, Guru Scribe и другие) работают на базе Whisper «под капотом» — они дают готовый UI, биллинг и дополнительные AI-функции (Mind Map, Q&A, диаризация и т. д.).

?Как Whisper переводит речь на английский?

Около ⅓ обучающих данных — речь не на английском. Модели попеременно даётся задача либо транскрибировать речь на исходном языке, либо переводить на английский. По заявлению OpenAI, такой подход эффективен для обучения переводу речи в текст: в режиме zero-shot Whisper превосходит лучшие на момент релиза модели на тесте перевода на английский CoVoST2.

?Можно ли пользоваться Whisper из России?

Open-source-вариант полностью доступен — скачивайте с GitHub и запускайте на своём GPU без оплаты и привязки к платформе. API OpenAI требует доступа к platform.openai.com и оплаты в долларах через Stripe — российские карты, скорее всего, не пройдут (нужна валютная карта или альтернативная схема оплаты). Российские коммерческие сервисы на базе Whisper (TurboScribe, Bukvitsa, Any2Text, Guru Scribe) принимают разные методы оплаты — это часто проще, чем напрямую через API OpenAI.

О сервисе писали в наших статьях

Распознавание речи: SpeechKit, SaluteSpeech и Whisper | ToolFox

Yandex SpeechKit, SaluteSpeech от Сбера и Whisper от OpenAI распознают русскую речь по-разному, и одного победителя нет: всё решают чистота аудио, скорость, цена и требования к данным. Сравниваем три сервиса по реальным бенчмаркам, ценам за час и 152-ФЗ.

1 июня 2026 г.14 мин чтения

Whisper для транскрибации: установка, точность и цены | ToolFox

Whisper от OpenAI распознаёт речь бесплатно и офлайн, но новичков пугают установка, выбор модели и галлюцинации на тишине. Разбираем по шагам: как запустить, какая модель нужна, насколько точно на русском и сколько стоит облачный API.

1 июня 2026 г.21 мин чтения

Гайд

Транскрибация аудио и видео в текст: гайд и сервисы | ToolFox

Час интервью вручную расшифровывают 4-6 часов, а нейросети делают это за минуты. Разбираем, как работает распознавание речи, какая модель точнее всего понимает русский и какие сервисы выбрать для аудио, видео и созвонов.

31 мая 2026 г.23 мин чтения

Альтернативы Whisper (OpenAI)

Yandex SpeechKit

Модуль AI Speech в Yandex AI Studio: распознавание и синтез речи, Realtime API голосовых агентов с откликом < 1 секунды, LLM-обработка результатов, Brand Voice (Lite + Premium) и SpeechKit Hybrid для on-premises. ООО «Яндекс.Облако», в реестре российского ПО.

T-Bank VoiceKit

API для распознавания и синтеза речи в реальном времени с потоковым режимом через gRPC и REST. Часть T-API от Т-Банка (бывший Tinkoff VoiceKit). Сервис ООО «ТЦР»: распознавание доступно для ЮЛ и физлиц, синтез — только для ЮЛ.

TurboScribeFreeБесплатно

AI-транскрибация на базе Whisper в 98+ языках с переводом в 134+ языков. Файлы до 10 часов и 5 GB, до 50 файлов одновременно на Unlimited-тарифе. Speaker Recognition, audio restoration и экспорт в PDF, DOCX, SRT, VTT, CSV, TXT.

MWS AI (бывший MTS AI)

MWS AI (бывший MTS AI) — один из ведущих российских AI-центров компетенций от группы МТС. ООО «МВС ИИ» с 2026, продуктовая линейка: Cotype (LLM), Audiogram (ASR/TTS), Kodify, WordPulse, AI Agents Platform, ИИ-рекрутер, Дипфейк-детектор.

Guru ScribeFreeБесплатно

Guru Scribe — российский AI-сервис транскрибации аудио и видео в текст: 1 час обрабатывается за 27 секунд, 90+ языков, деление на спикеров, AI-саммари. Оплата картами Мир и СБП.

Все аналоги Whisper (OpenAI)

Бесплатно

Ключевые функции

•Архитектура Transformer encoder-decoder (sequence-to-sequence ASR)
•Обучена на 680 000 часов многоязычных и многозадачных размеченных данных
•Многоязычное распознавание речи
•Перевод речи на английский (Speech Translation)
•Автоматическое определение языка
•Таймкоды на уровне фраз
•Устойчивость к акцентам, фоновому шуму и технической лексике
•50 % меньше ошибок в zero-shot vs специализированных LibriSpeech-моделей
•Open-source — исходный код и инференс-код
•Несколько размеров модели от tiny до large
•Доступна через API OpenAI или для self-hosted-запуска
•Превосходит лучшие модели в zero-shot на тесте CoVoST2 (перевод речи)

Для кого

РазработчикиИсследователиКонтент-командыСтартапыСценарии с конфиденциальными данными (self-hosted)Команды без своей AI-команды (через API)

🇷🇺Доступность в России

ДоступенДа
Карты РФНе принимаются
КриптовалютаНет
Оплата по счётуНет
Нужен VPNНет

Open-source-вариант (скачивание с GitHub и self-hosted) полностью доступен из России без ограничений и без оплаты. API OpenAI требует доступа к platform.openai.com и оплаты в долларах через Stripe — российские карты, скорее всего, не пройдут. Для self-hosted нужен GPU с достаточным объёмом видеопамяти. Возможно использование Whisper-обёрток в российских коммерческих сервисах (TurboScribe, Buккица, Any2Text, Guru Scribe и др.) — там оплата может быть проще.

Ресурсы и сообщество

На странице

Обновлено: 7 мая 2026 г.