Логотип Whisper (OpenAI)

Whisper (OpenAI)

Бесплатный тариф

Open-source модель автоматического распознавания речи (ASR) от OpenAI на архитектуре Transformer encoder-decoder. Обучена на 680 000 часов многоязычных данных, поддерживает транскрипцию и перевод на английский. Доступна как через API OpenAI, так и для self-hosted-запуска.

openai.com

Основная информация

Страна
США (OpenAI)
Развёртывание
Open-source (self-hosted) + API OpenAI
Языки
Многоязычная модель — около ⅔ обучающих данных на английском, ⅓ на других языках, Английский — точность близкая к человеческой +1
Поддержка
Документация platform.openai.com, Open-source-репозиторий на GitHub +2
Стоимость
Бесплатно
Пробный период
Бесплатный тариф

Технические характеристики

Платформы
API OpenAI (api.openai.com) + open-source (GitHub) для self-hosted
Модель развёртывания
API + Self-hosted
Юридическое лицо
OpenAI (OpenAI Foundation + OpenAI Group, public benefit corporation)
Год копирайта
© 2015–2026
Дата релиза
21 сентября 2022 года
Архитектура модели
Transformer encoder-decoder (sequence-to-sequence ASR)
Объём обучающих данных
680 000 часов многоязычных и многозадачных размеченных данных
Предобработка аудио
30-секундные фрагменты → log-mel спектрограмма
Размеры модели
tiny / base / small / medium / large (точный список в model card на GitHub)
Языки
Многоязычная модель (около ⅓ обучающих данных — не на английском)
Заявленная точность
Близкая к человеческой на английском; на 50 % меньше ошибок в zero-shot vs специализированных моделей
Тайм-коды
Таймкоды на уровне фраз
Определение языка
Автоматическое определение языка
Перевод речи (Speech Translation)
Перевод речи на английский (превосходит state-of-the-art в zero-shot на CoVoST2)
Open-source
Да — исходный код и инференс-код на GitHub
API
Да — через api.openai.com
Documentation
platform.openai.com (API), GitHub model card (open-source)
Страна регистрации
США

Поддержка и SLA

Каналы поддержки
Документация platform.openai.comOpen-source-репозиторий на GitHubФорум разработчиков (community.openai.com)Справочный центр (help.openai.com)

Интеграции Whisper (OpenAI)

Категории интеграций
API-доступOpen-sourceДокументацияСообщество
Ключевые интеграции
  • OpenAI APIAPI-доступофициальная
  • GitHub (репозиторий openai/whisper)Open-sourceофициальная
  • Hugging Face (порты модели)Open-source
  • platform.openai.com (документация)Документацияофициальная
  • community.openai.com (форум)Сообществоофициальная

Тарифы Whisper (OpenAI)

Open-source (self-hosted)

до 1 пользователей

Бесплатно
  • Бесплатное скачивание исходного кода с GitHub
  • Локальный запуск на своём GPU
  • Все размеры модели (tiny / base / small / medium / large — точный список в карточке модели)
  • Без ограничений по объёму обработки
  • Полный контроль над данными — подходит для конфиденциальных сценариев
  • Стоимость инфраструктуры — за счёт пользователя

API OpenAI (pay-as-you-go)

Популярный

до 1 пользователей

По запросу
  • Облачная обработка через api.openai.com
  • Pay-as-you-go-модель оплаты
  • Без своей инфраструктуры и GPU
  • Документация и SDK на platform.openai.com
  • Поддержка через форум разработчиков и справочный центр
  • Для развернутого ценообразования смотрите openai.com/api/pricing
Сравнение тарифов Whisper (OpenAI)
ТарифЦена
Open-source (self-hosted)Бесплатно
API OpenAI (pay-as-you-go)TOPПо запросу

Обзор Whisper (OpenAI)

Что такое Whisper?

Whisper — это open-source модель автоматического распознавания речи (ASR) от OpenAI, представленная 21 сентября 2022 года. Модель обучена на 680 000 часов многоязычных и многозадачных размеченных данных, собранных из веб-источников. По заявлению OpenAI, такой большой и разнообразный набор данных повышает устойчивость модели к акцентам, фоновому шуму и технической лексике, а также позволяет выполнять транскрипцию на разных языках и переводить речь с этих языков на английский.

Правообладатель — OpenAI (© 2015–2026). По структуре OpenAI состоит из некоммерческого OpenAI Foundation и коммерческой OpenAI Group (public benefit corporation): фонд управляет группой, которая действует как общественно полезная корпорация. Миссия — сделать так, чтобы общий искусственный интеллект приносил пользу всему человечеству. Whisper — один из исследовательских релизов в открытом доступе.

Архитектура и подход

Whisper построена как простой сквозной подход на базе Transformer encoder-decoder. Входное аудио разбивается на 30-секундные фрагменты, конвертируется в логарифмированную мел-спектрограмму и подаётся в энкодер. Декодер обучается генерировать текст с помощью специальных токенов, которые позволяют выполнять разные задачи:

  • Определение языка
  • Таймкоды на уровне фраз
  • Многоязычная транскрипция речи
  • Перевод речи на английский

Около трети обучающих данных — речь не на английском. Модели попеременно даётся задача либо транскрибировать речь на исходном языке, либо переводить на английский. Такой подход оказался особенно эффективным для обучения переводу речи в текст: в режиме zero-shot Whisper превосходит лучшие на 2022 год модели на тесте перевода на английский CoVoST2.

Точность и устойчивость

Поскольку модель обучалась на большом и разнообразном наборе данных и не проходила дополнительное обучение под конкретный набор, она не превосходит специализированные модели, оптимизированные под LibriSpeech (один из самых конкурентных эталонных тестов). Однако при оценке zero-shot на множестве разнообразных наборов данных Whisper гораздо более устойчива и допускает на 50 % меньше ошибок по сравнению с такими моделями.

Для английского языка модель демонстрирует точность и надёжность распознавания, близкую к человеческой. На многих других языках точность также высокая благодаря разнообразию обучающего набора — но качество зависит от объёма данных по конкретному языку.

Способы использования

1. Open-source (self-hosted)

  • OpenAI открыли исходный код моделей и инференс-код
  • Модель скачивается с GitHub и запускается на своём железе
  • Подходит, если нужен полный контроль над данными или большой объём
  • Требуется GPU с достаточным объёмом видеопамяти
  • Доступны размеры модели — обычно tiny, base, small, medium, large (актуальные размеры — в карточке модели на GitHub)

2. API OpenAI

  • Доступ через Платформу API на api.openai.com
  • Облачная обработка без своей инфраструктуры
  • Pay-as-you-go-модель оплаты
  • Точные цены — на странице OpenAI Pricing (openai.com/api/pricing/)
  • Документация для разработчиков — platform.openai.com

Что можно сделать с Whisper

  • Транскрипция аудио и видео в текст на разных языках
  • Перевод речи с любого поддерживаемого языка на английский
  • Автоматическое определение языка аудиозаписи
  • Генерация субтитров с тайм-кодами
  • Голосовые интерфейсы в собственных приложениях через API
  • База для других сервисов транскрибации (многие коммерческие сервисы работают на Whisper «под капотом»)

Кому подходит Whisper?

  • Разработчики — встроить транскрибацию в свой продукт через API или локально через open-source.
  • Исследователи — использовать как основу для дальнейших исследований в области распознавания речи (в том числе zero-shot и устойчивости к шуму).
  • Контент-команды — транскрибация и субтитры через интеграцию с собственным пайплайном.
  • Стартапы — построить продукт на базе open-source без лицензионных отчислений за модель.
  • Конфиденциальные сценарии — self-hosted-запуск даёт полный контроль над данными (для медицины, юриспруденции, госсектора).

Ресурсы

  • Статья (Whisper paper) — на сайте OpenAI
  • Карточка модели (model card) — на GitHub
  • Исходный код и инференс-код — на GitHub
  • Документация API — platform.openai.com
  • Форум разработчиков OpenAI — community.openai.com
  • Справочный центр и поддержка — help.openai.com

Плюсы и минусы Whisper (OpenAI)

+Преимущества

  • Open-source — бесплатное скачивание исходного кода и моделей
  • Возможность self-hosted-запуска на своём GPU для полного контроля над данными
  • Огромный обучающий набор (680 000 часов) — устойчивость к шумам, акцентам, тех.лексике
  • 50 % меньше ошибок vs специализированных моделей в zero-shot-сценариях
  • Стандарт-де-факто: многие коммерческие сервисы транскрибации (TurboScribe, Bukvitsa, Any2Text и другие) используют Whisper как движок
  • Подходит для конфиденциальных задач (self-hosted без передачи данных в облако)
  • Гибкость размеров модели — от tiny на CPU до large на сильных GPU
  • API OpenAI как альтернатива self-hosted без своей инфраструктуры
  • Активное сообщество разработчиков и множество готовых обёрток

Недостатки

  • Нет коробочного веб-интерфейса — модель и API, работа через код
  • Self-hosted требует мощного GPU и DevOps-навыков
  • Не превосходит специализированные модели на узких бенчмарках типа LibriSpeech
  • Точность сильно зависит от языка — английский лучше всего, экзотические языки хуже
  • Через API OpenAI оплата идёт через Stripe в долларах — российские карты, скорее всего, не пройдут
  • Нет потокового распознавания low-latency через API в исходном виде
  • Конкретные цены API не в материалах релиз-статьи — нужно смотреть openai.com/api/pricing
  • Лицензия исходного кода уточняется в репозитории на GitHub

Сценарии использования Whisper (OpenAI)

1

Стартап встраивает транскрибацию через API без своей AI-команды

Регистрация на platform.openai.com → получение API-ключа → 5 строк кода для отправки аудио в Whisper API. Pay-as-you-go даёт быстрый старт без капитальных вложений в инфраструктуру.

2

Команда с конфиденциальными данными разворачивает self-hosted

Скачивание модели нужного размера с GitHub → запуск на своём GPU → данные не покидают периметр компании. Подходит для медицины, юриспруденции, госсектора.

3

Контент-сервис строит продукт на open-source Whisper

TurboScribe, Bukvitsa, Any2Text и многие другие коммерческие сервисы транскрибации работают на Whisper. Open-source даёт основу — поверх строится UI, биллинг, AI-функции.

4

Исследователь использует zero-shot-устойчивость в исследованиях

Whisper показывает на 50 % меньше ошибок на разнообразных датасетах в zero-shot — это удобный baseline для исследований по устойчивости речевого распознавания.

5

Разработчик переводит речь на английский для международной аудитории

Speech Translation в Whisper превосходит state-of-the-art (на 2022 год) на CoVoST2 в zero-shot. Можно переводить голосовые интервью на разных языках сразу в английский текст без двух-этапного пайплайна.

6

Видеомейкер генерирует субтитры через локальный Whisper

Self-hosted Whisper с тайм-кодами на уровне фраз → экспорт SRT для добавления субтитров в видеоредактор. Нет ограничений по объёму, оплачивается только своя инфраструктура.

Доверие и масштаб

Whisper стал де-факто стандартом open-source ASR после релиза 21 сентября 2022 года. На его основе работают многие коммерческие сервисы транскрибации (TurboScribe, Bukvitsa, Any2Text, Guru Scribe и другие). По заявлению OpenAI, модель допускает на 50 % меньше ошибок в zero-shot-сценариях по сравнению со специализированными моделями LibriSpeech.
Известные клиенты
TurboScribe (использует Whisper как движок)Bukvitsa (Whisper-based, по заявлению сервиса)Any2Text (Whisper-based, по заявлению сервиса)Guru Scribe (Whisper-based, по заявлению сервиса)Множество других коммерческих и open-source-сервисов на Whisper
Награды
  • 🏆Релиз Whisper — один из ключевых open-source-релизов OpenAI 2022 года
  • 🏆Превосходит state-of-the-art в zero-shot на CoVoST2 (перевод речи)
  • 🏆−50 % WER в zero-shot vs специализированных LibriSpeech-моделей

Отзывы о Whisper (OpenAI)

Поделитесь опытом использования

Помогите другим сделать правильный выбор — ваш отзыв будет полезен

Часто задаваемые вопросы о Whisper (OpenAI)

?Что такое Whisper от OpenAI?

Whisper — это open-source модель автоматического распознавания речи (ASR) от OpenAI, представленная 21 сентября 2022 года. Архитектура — Transformer encoder-decoder, обучение на 680 000 часах многоязычных и многозадачных размеченных данных. Модель умеет транскрибировать речь на разных языках, переводить речь с этих языков на английский, определять язык и расставлять таймкоды на уровне фраз.

?Whisper бесплатный?

Open-source-вариант полностью бесплатен — модели и инференс-код доступны на GitHub (github.com/openai/whisper). Для self-hosted-запуска нужно своё железо (обычно GPU). API OpenAI работает по pay-as-you-go-модели — конкретные цены публикуются на странице openai.com/api/pricing, в материалах релиз-статьи цена не зафиксирована.

?Какая точность у Whisper?

По заявлению OpenAI, для английского языка точность близкая к человеческой. На разнообразных датасетах в zero-shot Whisper допускает на 50 % меньше ошибок по сравнению с моделями, специализированными под бенчмарк LibriSpeech. На узких эталонных тестах вроде LibriSpeech специализированные модели могут быть точнее, но Whisper — гораздо более устойчивый универсальный движок благодаря большому и разнообразному набору обучения.

?Какие языки поддерживает Whisper?

Whisper — многоязычная модель: около ⅓ обучающего набора составляет речь не на английском. Конкретный список поддерживаемых языков указан в карточке модели на GitHub. Точность зависит от объёма данных по конкретному языку — для русского, испанского, французского, немецкого, китайского и других распространённых языков точность высокая.

?Можно ли запустить Whisper локально?

Да, OpenAI открыли исходный код моделей и инференс-код на GitHub (github.com/openai/whisper). Для локального запуска рекомендуется GPU с достаточным объёмом видеопамяти. Доступны модели разных размеров — от tiny (для слабого железа) до large (для GPU). Точный набор размеров и системные требования см. в карточке модели на GitHub.

?Чем Whisper отличается от готовых сервисов транскрибации?

Whisper — это модель и API, а не продукт с UI. Чтобы пользоваться нужно либо встроить API в свой код, либо развернуть open-source-модель. Многие коммерческие сервисы транскрибации (TurboScribe, Bukvitsa, Any2Text, Guru Scribe и другие) работают на базе Whisper «под капотом» — они дают готовый UI, биллинг и дополнительные AI-функции (Mind Map, Q&A, диаризация и т. д.).

?Как Whisper переводит речь на английский?

Около ⅓ обучающих данных — речь не на английском. Модели попеременно даётся задача либо транскрибировать речь на исходном языке, либо переводить на английский. По заявлению OpenAI, такой подход эффективен для обучения переводу речи в текст: в режиме zero-shot Whisper превосходит лучшие на момент релиза модели на тесте перевода на английский CoVoST2.

?Можно ли пользоваться Whisper из России?

Open-source-вариант полностью доступен — скачивайте с GitHub и запускайте на своём GPU без оплаты и привязки к платформе. API OpenAI требует доступа к platform.openai.com и оплаты в долларах через Stripe — российские карты, скорее всего, не пройдут (нужна валютная карта или альтернативная схема оплаты). Российские коммерческие сервисы на базе Whisper (TurboScribe, Bukvitsa, Any2Text, Guru Scribe) принимают разные методы оплаты — это часто проще, чем напрямую через API OpenAI.

Альтернативы Whisper (OpenAI)

Yandex SpeechKit
Yandex SpeechKit

Модуль AI Speech в Yandex AI Studio: распознавание и синтез речи, Realtime API голосовых агентов с откликом < 1 секунды, LLM-обработка результатов, Brand Voice (Lite + Premium) и SpeechKit Hybrid для on-premises. ООО «Яндекс.Облако», в реестре российского ПО.

T-Bank VoiceKit
T-Bank VoiceKit

API для распознавания и синтеза речи в реальном времени с потоковым режимом через gRPC и REST. Часть T-API от Т-Банка (бывший Tinkoff VoiceKit). Сервис ООО «ТЦР»: распознавание доступно для ЮЛ и физлиц, синтез — только для ЮЛ.

TurboScribe
TurboScribeFreeБесплатно

AI-транскрибация на базе Whisper в 98+ языках с переводом в 134+ языков. Файлы до 10 часов и 5 GB, до 50 файлов одновременно на Unlimited-тарифе. Speaker Recognition, audio restoration и экспорт в PDF, DOCX, SRT, VTT, CSV, TXT.

MWS AI (бывший MTS AI)
MWS AI (бывший MTS AI)

MWS AI (бывший MTS AI) — один из ведущих российских AI-центров компетенций от группы МТС. ООО «МВС ИИ» с 2026, продуктовая линейка: Cotype (LLM), Audiogram (ASR/TTS), Kodify, WordPulse, AI Agents Platform, ИИ-рекрутер, Дипфейк-детектор.

Guru Scribe
Guru ScribeFreeБесплатно

Guru Scribe — российский AI-сервис транскрибации аудио и видео в текст: 1 час обрабатывается за 27 секунд, 90+ языков, деление на спикеров, AI-саммари. Оплата картами Мир и СБП.

Обновлено: 7 мая 2026 г.