
Whisper (OpenAI)
Бесплатный тарифOpen-source модель автоматического распознавания речи (ASR) от OpenAI на архитектуре Transformer encoder-decoder. Обучена на 680 000 часов многоязычных данных, поддерживает транскрипцию и перевод на английский. Доступна как через API OpenAI, так и для self-hosted-запуска.
Основная информация
Технические характеристики
- Платформы
- API OpenAI (api.openai.com) + open-source (GitHub) для self-hosted
- Модель развёртывания
- API + Self-hosted
- Юридическое лицо
- OpenAI (OpenAI Foundation + OpenAI Group, public benefit corporation)
- Год копирайта
- © 2015–2026
- Дата релиза
- 21 сентября 2022 года
- Архитектура модели
- Transformer encoder-decoder (sequence-to-sequence ASR)
- Объём обучающих данных
- 680 000 часов многоязычных и многозадачных размеченных данных
- Предобработка аудио
- 30-секундные фрагменты → log-mel спектрограмма
- Размеры модели
- tiny / base / small / medium / large (точный список в model card на GitHub)
- Языки
- Многоязычная модель (около ⅓ обучающих данных — не на английском)
- Заявленная точность
- Близкая к человеческой на английском; на 50 % меньше ошибок в zero-shot vs специализированных моделей
- Тайм-коды
- Таймкоды на уровне фраз
- Определение языка
- Автоматическое определение языка
- Перевод речи (Speech Translation)
- Перевод речи на английский (превосходит state-of-the-art в zero-shot на CoVoST2)
- Open-source
- Да — исходный код и инференс-код на GitHub
- API
- Да — через api.openai.com
- Documentation
- platform.openai.com (API), GitHub model card (open-source)
- Страна регистрации
- США
Поддержка и SLA
Интеграции Whisper (OpenAI)
- OpenAI API— API-доступофициальная
- GitHub (репозиторий openai/whisper)— Open-sourceофициальная
- Hugging Face (порты модели)— Open-source
- platform.openai.com (документация)— Документацияофициальная
- community.openai.com (форум)— Сообществоофициальная
Тарифы Whisper (OpenAI)
Open-source (self-hosted)
до 1 пользователей
- ✓Бесплатное скачивание исходного кода с GitHub
- ✓Локальный запуск на своём GPU
- ✓Все размеры модели (tiny / base / small / medium / large — точный список в карточке модели)
- ✓Без ограничений по объёму обработки
- ✓Полный контроль над данными — подходит для конфиденциальных сценариев
- ✓Стоимость инфраструктуры — за счёт пользователя
API OpenAI (pay-as-you-go)
Популярныйдо 1 пользователей
- ✓Облачная обработка через api.openai.com
- ✓Pay-as-you-go-модель оплаты
- ✓Без своей инфраструктуры и GPU
- ✓Документация и SDK на platform.openai.com
- ✓Поддержка через форум разработчиков и справочный центр
- ✓Для развернутого ценообразования смотрите openai.com/api/pricing
| Тариф | Цена |
|---|---|
| Open-source (self-hosted) | Бесплатно |
| API OpenAI (pay-as-you-go)TOP | По запросу |
Обзор Whisper (OpenAI)
Что такое Whisper?
Whisper — это open-source модель автоматического распознавания речи (ASR) от OpenAI, представленная 21 сентября 2022 года. Модель обучена на 680 000 часов многоязычных и многозадачных размеченных данных, собранных из веб-источников. По заявлению OpenAI, такой большой и разнообразный набор данных повышает устойчивость модели к акцентам, фоновому шуму и технической лексике, а также позволяет выполнять транскрипцию на разных языках и переводить речь с этих языков на английский.
Правообладатель — OpenAI (© 2015–2026). По структуре OpenAI состоит из некоммерческого OpenAI Foundation и коммерческой OpenAI Group (public benefit corporation): фонд управляет группой, которая действует как общественно полезная корпорация. Миссия — сделать так, чтобы общий искусственный интеллект приносил пользу всему человечеству. Whisper — один из исследовательских релизов в открытом доступе.
Архитектура и подход
Whisper построена как простой сквозной подход на базе Transformer encoder-decoder. Входное аудио разбивается на 30-секундные фрагменты, конвертируется в логарифмированную мел-спектрограмму и подаётся в энкодер. Декодер обучается генерировать текст с помощью специальных токенов, которые позволяют выполнять разные задачи:
- Определение языка
- Таймкоды на уровне фраз
- Многоязычная транскрипция речи
- Перевод речи на английский
Около трети обучающих данных — речь не на английском. Модели попеременно даётся задача либо транскрибировать речь на исходном языке, либо переводить на английский. Такой подход оказался особенно эффективным для обучения переводу речи в текст: в режиме zero-shot Whisper превосходит лучшие на 2022 год модели на тесте перевода на английский CoVoST2.
Точность и устойчивость
Поскольку модель обучалась на большом и разнообразном наборе данных и не проходила дополнительное обучение под конкретный набор, она не превосходит специализированные модели, оптимизированные под LibriSpeech (один из самых конкурентных эталонных тестов). Однако при оценке zero-shot на множестве разнообразных наборов данных Whisper гораздо более устойчива и допускает на 50 % меньше ошибок по сравнению с такими моделями.
Для английского языка модель демонстрирует точность и надёжность распознавания, близкую к человеческой. На многих других языках точность также высокая благодаря разнообразию обучающего набора — но качество зависит от объёма данных по конкретному языку.
Способы использования
1. Open-source (self-hosted)
- OpenAI открыли исходный код моделей и инференс-код
- Модель скачивается с GitHub и запускается на своём железе
- Подходит, если нужен полный контроль над данными или большой объём
- Требуется GPU с достаточным объёмом видеопамяти
- Доступны размеры модели — обычно tiny, base, small, medium, large (актуальные размеры — в карточке модели на GitHub)
2. API OpenAI
- Доступ через Платформу API на api.openai.com
- Облачная обработка без своей инфраструктуры
- Pay-as-you-go-модель оплаты
- Точные цены — на странице OpenAI Pricing (openai.com/api/pricing/)
- Документация для разработчиков — platform.openai.com
Что можно сделать с Whisper
- Транскрипция аудио и видео в текст на разных языках
- Перевод речи с любого поддерживаемого языка на английский
- Автоматическое определение языка аудиозаписи
- Генерация субтитров с тайм-кодами
- Голосовые интерфейсы в собственных приложениях через API
- База для других сервисов транскрибации (многие коммерческие сервисы работают на Whisper «под капотом»)
Кому подходит Whisper?
- Разработчики — встроить транскрибацию в свой продукт через API или локально через open-source.
- Исследователи — использовать как основу для дальнейших исследований в области распознавания речи (в том числе zero-shot и устойчивости к шуму).
- Контент-команды — транскрибация и субтитры через интеграцию с собственным пайплайном.
- Стартапы — построить продукт на базе open-source без лицензионных отчислений за модель.
- Конфиденциальные сценарии — self-hosted-запуск даёт полный контроль над данными (для медицины, юриспруденции, госсектора).
Ресурсы
- Статья (Whisper paper) — на сайте OpenAI
- Карточка модели (model card) — на GitHub
- Исходный код и инференс-код — на GitHub
- Документация API — platform.openai.com
- Форум разработчиков OpenAI — community.openai.com
- Справочный центр и поддержка — help.openai.com
Плюсы и минусы Whisper (OpenAI)
+Преимущества
- ✓Open-source — бесплатное скачивание исходного кода и моделей
- ✓Возможность self-hosted-запуска на своём GPU для полного контроля над данными
- ✓Огромный обучающий набор (680 000 часов) — устойчивость к шумам, акцентам, тех.лексике
- ✓50 % меньше ошибок vs специализированных моделей в zero-shot-сценариях
- ✓Стандарт-де-факто: многие коммерческие сервисы транскрибации (TurboScribe, Bukvitsa, Any2Text и другие) используют Whisper как движок
- ✓Подходит для конфиденциальных задач (self-hosted без передачи данных в облако)
- ✓Гибкость размеров модели — от tiny на CPU до large на сильных GPU
- ✓API OpenAI как альтернатива self-hosted без своей инфраструктуры
- ✓Активное сообщество разработчиков и множество готовых обёрток
−Недостатки
- ✗Нет коробочного веб-интерфейса — модель и API, работа через код
- ✗Self-hosted требует мощного GPU и DevOps-навыков
- ✗Не превосходит специализированные модели на узких бенчмарках типа LibriSpeech
- ✗Точность сильно зависит от языка — английский лучше всего, экзотические языки хуже
- ✗Через API OpenAI оплата идёт через Stripe в долларах — российские карты, скорее всего, не пройдут
- ✗Нет потокового распознавания low-latency через API в исходном виде
- ✗Конкретные цены API не в материалах релиз-статьи — нужно смотреть openai.com/api/pricing
- ✗Лицензия исходного кода уточняется в репозитории на GitHub
Сценарии использования Whisper (OpenAI)
Стартап встраивает транскрибацию через API без своей AI-команды
Регистрация на platform.openai.com → получение API-ключа → 5 строк кода для отправки аудио в Whisper API. Pay-as-you-go даёт быстрый старт без капитальных вложений в инфраструктуру.
Команда с конфиденциальными данными разворачивает self-hosted
Скачивание модели нужного размера с GitHub → запуск на своём GPU → данные не покидают периметр компании. Подходит для медицины, юриспруденции, госсектора.
Контент-сервис строит продукт на open-source Whisper
TurboScribe, Bukvitsa, Any2Text и многие другие коммерческие сервисы транскрибации работают на Whisper. Open-source даёт основу — поверх строится UI, биллинг, AI-функции.
Исследователь использует zero-shot-устойчивость в исследованиях
Whisper показывает на 50 % меньше ошибок на разнообразных датасетах в zero-shot — это удобный baseline для исследований по устойчивости речевого распознавания.
Разработчик переводит речь на английский для международной аудитории
Speech Translation в Whisper превосходит state-of-the-art (на 2022 год) на CoVoST2 в zero-shot. Можно переводить голосовые интервью на разных языках сразу в английский текст без двух-этапного пайплайна.
Видеомейкер генерирует субтитры через локальный Whisper
Self-hosted Whisper с тайм-кодами на уровне фраз → экспорт SRT для добавления субтитров в видеоредактор. Нет ограничений по объёму, оплачивается только своя инфраструктура.
Доверие и масштаб
- 🏆Релиз Whisper — один из ключевых open-source-релизов OpenAI 2022 года
- 🏆Превосходит state-of-the-art в zero-shot на CoVoST2 (перевод речи)
- 🏆−50 % WER в zero-shot vs специализированных LibriSpeech-моделей
Отзывы о Whisper (OpenAI)
Поделитесь опытом использования
Помогите другим сделать правильный выбор — ваш отзыв будет полезен
Часто задаваемые вопросы о Whisper (OpenAI)
?Что такое Whisper от OpenAI?
Whisper — это open-source модель автоматического распознавания речи (ASR) от OpenAI, представленная 21 сентября 2022 года. Архитектура — Transformer encoder-decoder, обучение на 680 000 часах многоязычных и многозадачных размеченных данных. Модель умеет транскрибировать речь на разных языках, переводить речь с этих языков на английский, определять язык и расставлять таймкоды на уровне фраз.
?Whisper бесплатный?
Open-source-вариант полностью бесплатен — модели и инференс-код доступны на GitHub (github.com/openai/whisper). Для self-hosted-запуска нужно своё железо (обычно GPU). API OpenAI работает по pay-as-you-go-модели — конкретные цены публикуются на странице openai.com/api/pricing, в материалах релиз-статьи цена не зафиксирована.
?Какая точность у Whisper?
По заявлению OpenAI, для английского языка точность близкая к человеческой. На разнообразных датасетах в zero-shot Whisper допускает на 50 % меньше ошибок по сравнению с моделями, специализированными под бенчмарк LibriSpeech. На узких эталонных тестах вроде LibriSpeech специализированные модели могут быть точнее, но Whisper — гораздо более устойчивый универсальный движок благодаря большому и разнообразному набору обучения.
?Какие языки поддерживает Whisper?
Whisper — многоязычная модель: около ⅓ обучающего набора составляет речь не на английском. Конкретный список поддерживаемых языков указан в карточке модели на GitHub. Точность зависит от объёма данных по конкретному языку — для русского, испанского, французского, немецкого, китайского и других распространённых языков точность высокая.
?Можно ли запустить Whisper локально?
Да, OpenAI открыли исходный код моделей и инференс-код на GitHub (github.com/openai/whisper). Для локального запуска рекомендуется GPU с достаточным объёмом видеопамяти. Доступны модели разных размеров — от tiny (для слабого железа) до large (для GPU). Точный набор размеров и системные требования см. в карточке модели на GitHub.
?Чем Whisper отличается от готовых сервисов транскрибации?
Whisper — это модель и API, а не продукт с UI. Чтобы пользоваться нужно либо встроить API в свой код, либо развернуть open-source-модель. Многие коммерческие сервисы транскрибации (TurboScribe, Bukvitsa, Any2Text, Guru Scribe и другие) работают на базе Whisper «под капотом» — они дают готовый UI, биллинг и дополнительные AI-функции (Mind Map, Q&A, диаризация и т. д.).
?Как Whisper переводит речь на английский?
Около ⅓ обучающих данных — речь не на английском. Модели попеременно даётся задача либо транскрибировать речь на исходном языке, либо переводить на английский. По заявлению OpenAI, такой подход эффективен для обучения переводу речи в текст: в режиме zero-shot Whisper превосходит лучшие на момент релиза модели на тесте перевода на английский CoVoST2.
?Можно ли пользоваться Whisper из России?
Open-source-вариант полностью доступен — скачивайте с GitHub и запускайте на своём GPU без оплаты и привязки к платформе. API OpenAI требует доступа к platform.openai.com и оплаты в долларах через Stripe — российские карты, скорее всего, не пройдут (нужна валютная карта или альтернативная схема оплаты). Российские коммерческие сервисы на базе Whisper (TurboScribe, Bukvitsa, Any2Text, Guru Scribe) принимают разные методы оплаты — это часто проще, чем напрямую через API OpenAI.
Альтернативы Whisper (OpenAI)
Модуль AI Speech в Yandex AI Studio: распознавание и синтез речи, Realtime API голосовых агентов с откликом < 1 секунды, LLM-обработка результатов, Brand Voice (Lite + Premium) и SpeechKit Hybrid для on-premises. ООО «Яндекс.Облако», в реестре российского ПО.
API для распознавания и синтеза речи в реальном времени с потоковым режимом через gRPC и REST. Часть T-API от Т-Банка (бывший Tinkoff VoiceKit). Сервис ООО «ТЦР»: распознавание доступно для ЮЛ и физлиц, синтез — только для ЮЛ.
AI-транскрибация на базе Whisper в 98+ языках с переводом в 134+ языков. Файлы до 10 часов и 5 GB, до 50 файлов одновременно на Unlimited-тарифе. Speaker Recognition, audio restoration и экспорт в PDF, DOCX, SRT, VTT, CSV, TXT.
MWS AI (бывший MTS AI) — один из ведущих российских AI-центров компетенций от группы МТС. ООО «МВС ИИ» с 2026, продуктовая линейка: Cotype (LLM), Audiogram (ASR/TTS), Kodify, WordPulse, AI Agents Platform, ИИ-рекрутер, Дипфейк-детектор.
Guru Scribe — российский AI-сервис транскрибации аудио и видео в текст: 1 час обрабатывается за 27 секунд, 90+ языков, деление на спикеров, AI-саммари. Оплата картами Мир и СБП.
Обновлено: 7 мая 2026 г.