Перейти к содержимому

Как пользоваться Whisper для расшифровки аудио в текст: полная инструкция

Как пользоваться Whisper для расшифровки аудио в текст: установка, выбор модели, точность на русском, faster-whisper, цены API OpenAI и борьба с галлюцинациями.

21 мин чтения
Руслан Авдеев
whisperwhisper openaiтранскрибацияраспознавание речиspeech to textfaster-whisperрасшифровка аудиосубтитрынейросетиopen source
Как пользоваться Whisper для расшифровки аудио в текст: аудиофайл подаётся в open-source модель Whisper от OpenAI, которая распознаёт речь и выдаёт готовый текст и субтитры. Запуск локально бесплатно или через облачный API, ускорение через faster-whisper и whisper.cpp

Whisper от OpenAI — это бесплатная открытая нейросеть для распознавания речи, которой пользуются десятки сервисов транскрибации. Запустить её можно прямо на своём компьютере без интернета и без оплаты, но новичков пугают установка через командную строку, выбор модели и галлюцинации на тишине. Разберём по шагам, как запустить Whisper для русского языка, какая модель нужна под ваше железо, насколько точно она работает и сколько стоит облачный вариант через API.

Whisper появился в открытом доступе в 2022 году и быстро стал стандартом для расшифровки аудио: на нём построены и платные сервисы, и десктопные программы, и боты в мессенджерах. Эта статья продолжает наш полный гайд по транскрибации аудио и видео в текст и подробно разбирает именно Whisper, от установки до тонких настроек.

Что такое Whisper и кому он подходит

Whisper — это нейросеть для автоматического распознавания речи (по-английски speech-to-text или ASR), которую OpenAI выложила в открытый доступ. Модель обучена примерно на 680 000 часов аудио на разных языках и умеет переводить речь в текст на 98 языках, включая русский. Главное её отличие от облачных сервисов в том, что Whisper открыта (лицензия MIT) и её можно запускать на своём компьютере бесплатно.

Именно поэтому Whisper стал основой целой экосистемы. На нём работают платные сервисы транскрибации, десктопные программы, плагины для видеоредакторов и боты, которые расшифровывают голосовые сообщения. Когда сервис обещает «распознавание на базе ИИ», под капотом, как правило, либо сам Whisper, либо его ускоренная версия.

Кому Whisper подходит лучше всего:

  • Разработчикам и техническим специалистам, которым нужно встроить распознавание речи в свой продукт или автоматизировать обработку большого объёма записей.
  • Тем, кому важна приватность, поскольку локальный запуск не отправляет аудио ни на какие сторонние серверы (об этом подробно ниже).
  • Энтузиастам с подходящим железом, готовым один раз настроить инструмент ради бесплатной и неограниченной расшифровки.

А вот если командная строка пугает, а расшифровка нужна разово, проще взять готовую программу или сервис на том же Whisper, не устанавливая ничего. Эти варианты разберём в отдельном разделе.

Главное здесь: Whisper — это открытая бесплатная нейросеть OpenAI для распознавания речи на 98 языках; она лежит в основе многих сервисов, а её ключевое преимущество, возможность запустить локально на своём компьютере без оплаты и без отправки данных в облако.

Whisper бесплатный или платный?

Это первый вопрос, который возникает, и ответ зависит от того, как вы запускаете модель. Есть два пути, и они принципиально разные по цене.

Локальный запуск, бесплатно. Сама модель открыта, её код и веса лежат на GitHub под лицензией MIT. Вы скачиваете Whisper, ставите на свой компьютер и расшифровываете сколько угодно аудио без какой-либо оплаты. Единственная цена — это ваше железо (желательно видеокарта) и электричество. Сюда же относятся бесплатные ускоренные версии faster-whisper и whisper.cpp.

Облачный API OpenAI, платно. Если своего мощного компьютера нет или нужно встроить распознавание в сервис, OpenAI предоставляет Whisper через API за деньги: от 0,003 до 0,006 доллара за минуту аудио, то есть примерно от 0,18 до 0,36 доллара за час. Платите по факту использования, ничего устанавливать не нужно, но аудио уходит на серверы OpenAI.

0 ₽

столько стоит транскрибация на локальном Whisper: модель открыта (лицензия MIT) и работает офлайн, платить нужно только за своё железо и электричество. Облачный API OpenAI берёт от 0,003 доллара за минуту, удобно, но аудио при этом уходит на зарубежные серверы.

Сама модель, основа и для бесплатного локального запуска, и для платного API:

Для большинства задач логика простая. Регулярно расшифровываете много записей и есть нормальный компьютер, локальный Whisper окупит установку. Нужно изредка и без возни, проще заплатить за API или взять готовый сервис. Если же запись конфиденциальная, выбор фактически только один, локально.

Главное здесь: локальный Whisper бесплатен (открытая модель под MIT, запуск офлайн), а облачный API OpenAI стоит от 0,003 доллара за минуту; выбор между ними зависит от объёма, наличия железа и требований к приватности.

Модели Whisper: какую выбрать

У Whisper не одна модель, а целое семейство разного размера. Чем больше модель, тем точнее распознавание, но тем больше нужно видеопамяти и тем медленнее работа. Выбор модели — это главная развилка при настройке.

Модель Параметры Видеопамять Скорость Для чего
tiny 39 млн ~1 ГБ ~10x Черновик, слабое железо, реалтайм
base 74 млн ~1 ГБ ~7x Быстро, но на русском слабо
small 244 млн ~2 ГБ ~4x Компромисс на слабом GPU
medium 769 млн ~5 ГБ ~2x Неплохо на русском, средний GPU
large-v3 1,55 млрд ~10 ГБ 1x Максимум точности, нужен мощный GPU
large-v3-turbo 809 млн ~6 ГБ ~8x Лучший баланс, дефолт в 2026

На практике большинству стоит начинать с large-v3-turbo: это облегчённая версия large-v3, которая распознаёт почти так же точно, но работает примерно в 8 раз быстрее и требует около 6 ГБ видеопамяти вместо 10. Если нужна максимальная точность и есть видеокарта помощнее, берите large-v3. Мелкие модели (tiny, base) на русском заметно ошибаются, их есть смысл брать только для черновика или на очень слабом железе.

Отдельный нюанс: версии с пометкой .en (например base.en) обучены только на английском. Для русского языка нужны обычные мультиязычные версии, а turbo вдобавок не умеет переводить речь на другой язык, для перевода берут large.

Главное здесь: модели Whisper различаются размером, от tiny (39 млн параметров, 1 ГБ) до large-v3 (1,55 млрд, 10 ГБ); оптимальный выбор для большинства, large-v3-turbo (почти точность large-v3 при восьмикратной скорости и 6 ГБ видеопамяти), а мелкие модели для русского слабоваты.

Как установить и запустить Whisper

Базовый запуск Whisper идёт через командную строку и сводится к трём шагам. Это проще, чем кажется, и работает на Windows, macOS и Linux.

Шаг 1. Поставить ffmpeg. Это бесплатная утилита для работы со звуком, без неё Whisper не прочитает аудиофайл. На macOS, brew install ffmpeg, на Windows, choco install ffmpeg (через пакетный менеджер Chocolatey) или скачать архив с сайта и прописать путь в переменную PATH, на Ubuntu, sudo apt install ffmpeg.

Шаг 2. Установить сам Whisper. Нужен установленный Python (надёжнее версии 3.9 или 3.10). Одна команда ставит пакет:

pip install -U openai-whisper

Вместе с ним подтянется PyTorch, библиотека для нейросетей. Если у вас есть видеокарта NVIDIA, для работы на ней понадобится сборка PyTorch под вашу версию CUDA, её ставят с указанием специального адреса через --extra-index-url с сайта PyTorch.

Шаг 3. Запустить распознавание. Указываете файл, язык и модель:

whisper audio.mp3 --language Russian --model large-v3

Whisper запустит процесс распознавания и положит результат в ту же папку сразу в нескольких форматах: текстовый файл (TXT), а также субтитры (SRT и VTT). На вход он принимает популярные форматы аудио, например MP3, WAV и M4A. Параметр --language Russian важен: без явного указания языка модель определяет его сама, но с подсказкой работает точнее и быстрее.

По поводу железа. На видеокарте (GPU) Whisper считает быстро, час записи обрабатывается за минуты. На обычном процессоре (CPU) без видеокарты он тоже запустится, но крупная модель будет работать дольше длительности самого аудио, иногда в разы. Для CPU есть отдельные быстрые версии, о них дальше.

Главное здесь: установка Whisper — это три шага, поставить ffmpeg, выполнить pip install -U openai-whisper, запустить командой с указанием языка и модели; на видеокарте работает быстро, на процессоре медленно, поэтому для CPU берут ускоренные версии.

Точность Whisper на русском языке

Здесь важно быть честным: на русском Whisper работает заметно хуже, чем на английском, и сильно зависит от модели и качества записи. Официальной единой цифры точности для русского OpenAI не публикует, но независимые замеры дают понятную картину.

На чистой студийной речи ускоренная модель large-v3-turbo показывает около 7,9% ошибок (метрика WER, доля неверно распознанных слов). Базовая мелкая модель base на русском ошибается примерно в 32,6% случаев, а полноразмерная large-v3 в среднем по разным записям, около 20,8%. То есть в реальных условиях (звонки, шум, несколько говорящих) у обычного Whisper на русском стоит ожидать 15-25% ошибок, что требует заметной вычитки.

Версия Whisper Ошибки (WER) на русском Условия
base ~32,6% Мелкая модель, тест на CPU
large-v3 ~20,8% Среднее по 7 русским наборам
large-v3-turbo ~7,9% Чистая студийная речь
antony66 (дообученная) ~6,39% Дообучена на русском, телефония
bond005/podlodka ~5,22% Дообучена, чинит пунктуацию

Точность сильно повышают дообученные на русском версии, которые энтузиасты выкладывают в открытый доступ. Например, модель antony66 снижает ошибки с 9,84% до 6,39% на эталонном русском наборе, а bond005 на базе turbo дополнительно чинит русскую пунктуацию и заглавные буквы. Их ставят вместо стандартной модели, когда нужен именно русский.

Главное здесь: на русском у базового Whisper точность скромная (от ~8% ошибок на чистой речи до 20-33% на шуме и мелких моделях), но дообученные русские версии (antony66, bond005) опускают ошибки до 5-6%; рекламной «99% точности» в реальных условиях ждать не стоит.

Whisper или GigaAM точнее на русском?

Многие ставят Whisper по привычке, считая его лучшим, и для русского это не всегда верно. Российские открытые модели, обученные именно на русской речи, в среднем точнее. По данным SberDevices, их модель GigaAM-v3 даёт около 6,7% ошибок на русском против 20,8% у Whisper large-v3, то есть ошибается примерно втрое реже. Для телефонии и звонков хороша открытая модель T-one от Т-Банка. Подробное сравнение моделей есть в нашем гайде по транскрибации.

Но у Whisper есть своя сильная сторона, о которой редко пишут. Он лучше справляется со смешанной русско-английской речью: ИТ-разговоры, термины, названия продуктов вроде Docker или Gemini он пишет латиницей корректно, тогда как GigaAM такие слова ненадёжно переводит в кириллицу. В тесте на дикторской речи их точность почти совпала (Whisper 7,9% против GigaAM 7,7%), а на текстах с обилием английских терминов Whisper удобнее.

Практический вывод. Чистый русский (лекции, интервью, диктовка), берите GigaAM или дообученную русскую версию Whisper. Много английских терминов вперемешку с русским, Whisper large подойдёт лучше. А если нужна не точность любой ценой, а простота, выбор часто решает не модель, а удобство запуска.

Главное здесь: на чистом русском GigaAM обычно точнее Whisper (около 6,7% против 20,8% ошибок), но Whisper заметно лучше держит смешанную русско-английскую речь и технические термины; выбирайте модель под характер записи.

Как ускорить Whisper: faster-whisper, whisper.cpp и WhisperX

Стандартный Whisper не самый быстрый, и сообщество сделало несколько ускоренных версий с той же моделью внутри. Это ключ к тому, чтобы Whisper работал быстро даже без топовой видеокарты.

Версия Что даёт Когда брать
faster-whisper До 4 раз быстрее, памяти вдвое меньше, встроенный фильтр тишины Универсальный выбор для своего железа
whisper.cpp Версия на C++, без Python, сжатые модели, работает на Mac, Raspberry Pi, телефоне CPU, слабое железо, мобильные
WhisperX Точные таймкоды по словам плюс разделение по спикерам Субтитры, интервью, диаризация

faster-whisper — это переписанная на движке CTranslate2 версия, которая работает до 4 раз быстрее оригинала при той же точности, требует примерно вдвое меньше видеопамяти (крупная модель помещается в 4,6 ГБ вместо 10) и имеет встроенный детектор речи, отсекающий тишину. Для большинства это лучший вариант. whisper.cpp — это порт на язык C++, который не требует Python, умеет сжимать модели и запускается даже на слабом процессоре, Raspberry Pi и смартфоне. WhisperX добавляет к Whisper точные таймкоды по словам и определение, кто из участников говорит, что важно для субтитров и расшифровки интервью.

«Главный совет тем, кто только ставит Whisper: не берите оригинальную реализацию, берите сразу faster-whisper. Это та же модель, та же точность, но в разы быстрее и с куда меньшим аппетитом к видеопамяти. У меня large-v3 на оригинале не влезала в видеокарту, а на faster-whisper заработала с запасом. Плюс встроенный детектор речи сразу убирает половину проблем с галлюцинациями на тишине. Оригинальный Whisper хорош как эталон, но в реальной работе все, кого я знаю, давно сидят на faster-whisper или whisper.cpp».

Антон Жигалов, инженер по машинному обучению, Новосибирск, опыт 8 лет.

Главное здесь: оригинальный Whisper медленный, поэтому на практике берут ускоренные версии, faster-whisper (до 4 раз быстрее, меньше памяти, фильтр тишины), whisper.cpp (для CPU, Mac и телефонов) или WhisperX (таймкоды по словам и разделение по спикерам).

Whisper на CPU и на телефоне

Видеокарта есть не у всех, и это не повод отказываться от Whisper. На обычном процессоре он работает, просто медленнее, и тут спасают правильные инструменты.

Лучший выбор для процессора — это whisper.cpp. Он написан на C++ и поддерживает сжатие моделей (квантизацию), за счёт чего занимает меньше памяти и считает быстрее. На восьми потоках процессора он обрабатывает запись чуть быстрее реального времени, чего для большинства задач достаточно. Альтернатива, faster-whisper с режимом INT8, который тоже хорошо работает на CPU.

На Apple-компьютерах с чипами M-серии whisper.cpp использует встроенный нейроускоритель и графику, поэтому распознаёт быстро без отдельной видеокарты. А поскольку whisper.cpp портирован на iOS и Android, Whisper в принципе можно запустить и на смартфоне, через приложения на его основе с небольшими сжатыми моделями.

Отдельно стоит помнить про российские модели: на CPU GigaAM показывает очень хорошую точность на русском (около 3,3% ошибок в независимом тесте), так что для чистого русского без видеокарты это сильная альтернатива.

Главное здесь: без видеокарты Whisper тоже работает, для этого берут whisper.cpp (сжатые модели, чуть быстрее реального времени на 8 потоках) или faster-whisper в режиме INT8; на Mac с чипами M-серии и даже на смартфоне Whisper запускается через whisper.cpp.

Программы с Whisper без кода и установки

Если командная строка и Python не для вас — это нормально: тот же Whisper доступен в готовых программах с обычным интерфейсом и в онлайн-сервисах, где ничего ставить не надо.

Из бесплатных программ удобна Buzz, кроссплатформенное приложение (Windows, macOS, Linux), которое распознаёт аудио и видео офлайн на движке Whisper и экспортирует результат в текст и субтитры. На Mac популярно нативное приложение MacWhisper, есть и кроссплатформенная Vibe. Для субтитров часто используют редактор Subtitle Edit, который умеет расшифровывать через Whisper и сразу собирать готовые субтитры.

Ещё проще, онлайн-сервисы на базе Whisper, куда вы просто загружаете файл. Например, TurboScribe работает на Whisper, поддерживает русский и видео, в том числе по ссылке на YouTube, и отдаёт субтитры:

Из российских вариантов на Whisper есть Any2Text с рублёвой оплатой и поддержкой диаризации, удобно, когда нужен русский интерфейс и оплата картой РФ без подписки:

«Я монтирую видео и делаю субтитры, и для меня важна не возня с кодом, а результат. Раньше я расшифровывала на слух, теперь прогоняю дорожку через программу на Whisper и получаю готовые субтитры с таймкодами за минуты, остаётся только вычитать. Тем, кто не из ИТ, я всегда советую начинать с программы с интерфейсом или с сервиса, а не с командной строки. Whisper под капотом тот же, а порог входа в разы ниже».

Вера Лаврова, специалист по субтитрам и локализации видео, Казань, опыт 9 лет.

Главное здесь: пользоваться Whisper можно и без кода, через бесплатные программы с интерфейсом (Buzz, MacWhisper, Subtitle Edit) или онлайн-сервисы на его базе (TurboScribe, Any2Text); под капотом та же модель, а устанавливать ничего не нужно.

Whisper API: цены, лимиты и субтитры

Когда распознавание нужно встроить в свой сервис или обработать записи без своего железа, используют облачный API OpenAI. Платите по факту, за минуты обработанного аудио.

Цены на момент написания такие: модель whisper-1 и более новая gpt-4o-transcribe стоят около 0,006 доллара за минуту, а облегчённая gpt-4o-mini-transcribe, около 0,003 доллара. То есть час аудио обходится примерно в 0,18-0,36 доллара. Есть важный лимит: один файл, не больше 25 МБ, длинные записи приходится резать на части или сжимать.

Тонкость, о которой часто забывают: субтитры в форматах SRT и VTT, а также детальные таймкоды отдаёт только старая модель whisper-1. Новые gpt-4o-transcribe возвращают лишь обычный текст или JSON, поэтому для субтитров через API берут именно whisper-1. Для распознавания через API полезен и параметр language (код языка, для русского ru), и параметр prompt, через который можно подсказать модели термины, имена и стиль.

«Через API удобно автоматизировать поток записей, но новички спотыкаются на двух вещах. Первое, лимит в 25 мегабайт: часовое интервью туда не влезет, надо резать или жать в формат пониже. Второе, путают модели: ставят новую gpt-4o-transcribe и удивляются, что нет субтитров SRT, а они есть только у whisper-1. Я для конвейеров обычно беру whisper-1, если нужны таймкоды, и подсказываю модели словарь терминов через параметр prompt — это заметно снижает ошибки в названиях».

Сергей Пастухов, Python-разработчик, автоматизация транскрибации, Москва, опыт 10 лет.

Главное здесь: облачный Whisper API стоит от 0,003 до 0,006 доллара за минуту, ограничивает файл 25 МБ, а субтитры SRT и VTT отдаёт только модель whisper-1 (новые gpt-4o-transcribe, лишь текст); для русского указывайте язык и подсказывайте термины через параметр prompt.

Почему Whisper «галлюцинирует» и как это починить

У Whisper есть известная особенность, которая удивляет новичков: на участках тишины, музыки или сильного шума он может выдумать текст, которого не было, или зациклиться на повторе одной фразы. В медицинском исследовании 2024 года такие выдумки встречались примерно в 1% фрагментов, иногда это были даже несуществующие фразы. Причина в самой природе модели: она всегда пытается «услышать» речь, даже когда её нет.

Лечится это несколькими полезными приёмами, и большинство из них уже встроено в ускоренные версии. Главный — это детектор речевой активности (VAD): он заранее вырезает не-речевые куски, чтобы модель их не «слушала». В faster-whisper такой фильтр встроен и часто включён по умолчанию, что само по себе убирает большую часть галлюцинаций. Дополнительно помогают настройки: отключение переноса предыдущего контекста (condition_on_previous_text=False), чтобы модель не повторяла прошлый текст при неуверенности, и подсказка словаря через initial_prompt с нужными терминами и именами.

Для русского отдельно стоит помнить, что базовый Whisper своеобразно ставит пунктуацию и иногда путает термины. Это чинят либо дообученными русскими моделями (bond005 специально исправляет пунктуацию), либо аккуратной вычиткой результата. Машинная расшифровка почти всегда требует финальной правки человеком, и закладывать на неё время, нормально.

Главное здесь: Whisper выдумывает текст на тишине и шуме примерно в 1% случаев из-за своей природы; лечится это детектором речи (VAD, встроен в faster-whisper), отключением переноса контекста и подсказкой терминов, а для русской пунктуации, дообученными моделями и вычиткой.

Можно ли использовать Whisper для конфиденциального аудио?

Это важный вопрос, который часто упускают. Ответ зависит от того, локально вы запускаете Whisper или через облако, и разница принципиальная.

Локальный Whisper, безопасно. Когда модель работает на вашем компьютере (через openai-whisper, faster-whisper, whisper.cpp или программу вроде Buzz), аудио и текст никуда не уходят, обработка идёт офлайн. Это критично для переговоров, медицинских записей, собеседований и любых разговоров с персональными данными. По 152-ФЗ такие данные нельзя бездумно отправлять третьим лицам, а локальная обработка эту проблему снимает полностью.

Облачный API, осторожно. При использовании Whisper API аудио уходит на серверы OpenAI в США. Для персональных данных граждан РФ это трансграничная передача, которая требует отдельного правового основания, а для чувствительных записей (медтайна, коммерческие переговоры) облако обычно вообще неприемлемо. В этом случае берут либо локальный Whisper, либо российские сервисы с обработкой данных в РФ, как Yandex SpeechKit:

Простое правило: если запись содержит персональные или конфиденциальные данные, расшифровывайте её локально или в российском сервисе с обработкой в РФ. Для публичного подкаста или лекции это избыточно, а для записи с клиентскими данными, обязательно.

Главное здесь: для конфиденциального аудио подходит только локальный Whisper (данные не покидают компьютер) или российский сервис с обработкой в РФ; облачный API OpenAI отправляет аудио на серверы в США, что для персональных данных рискованно по 152-ФЗ.

Как выбрать способ запуска Whisper

Способов запустить Whisper много, и выбор зависит от того, умеете ли вы работать с кодом, какое у вас железо и насколько важна приватность.

Дерево выбора способа запуска Whisper: тем, кто не работает с кодом, подойдёт готовая программа Buzz или онлайн-сервис на Whisper; разработчику со своей видеокартой нужен faster-whisper локально; для слабого железа и CPU нужен whisper.cpp; для встраивания в продукт без своего сервера нужен облачный API OpenAI

Главное здесь: выбирайте способ запуска под себя, не-разработчику, программа или сервис; разработчику с GPU, faster-whisper; без видеокарты, whisper.cpp; для встраивания в продукт, API; модель по умолчанию large-v3-turbo, а для конфиденциального аудио, только локально.

5 ошибок при работе с Whisper

Ошибка 1: «Поставлю оригинальный Whisper, он же официальный»

Что не так: оригинальная реализация медленная и прожорливая по видеопамяти; крупная модель часто не влезает в видеокарту и еле ползёт на процессоре.

Что делать: ставить faster-whisper (та же точность, до 4 раз быстрее, вдвое меньше памяти) или whisper.cpp для слабого железа.

Ошибка 2: «Whisper лучший, ставлю его на чистый русский»

Что не так: на чистом русском Whisper в среднем втрое менее точен, чем российские модели (около 20,8% против 6,7% ошибок).

Что делать: для чистого русского брать GigaAM или дообученную русскую версию Whisper; обычный Whisper оставить для смешанной русско-английской речи.

Ошибка 3: «Залью запись переговоров через API, так удобнее»

Что не так: через API аудио уходит на серверы OpenAI в США; для персональных и конфиденциальных данных это нарушает требования 152-ФЗ.

Что делать: конфиденциальное аудио расшифровывать только локально или в российском сервисе с обработкой данных в РФ.

Ошибка 4: «Текст с тишины, наверное, так и было сказано»

Что не так: на тишине и шуме Whisper выдумывает фразы; без фильтра тишины в расшифровку попадает несуществующий текст.

Что делать: использовать версию со встроенным детектором речи (faster-whisper) и обязательно вычитывать результат.

Ошибка 5: «Поставил gpt-4o-transcribe, а субтитров нет»

Что не так: новые модели gpt-4o-transcribe возвращают только текст; форматы субтитров SRT и VTT через API отдаёт лишь whisper-1.

Что делать: для субтитров через API использовать модель whisper-1 либо генерировать их в программе (Subtitle Edit, Buzz).

Вывод

Whisper — это бесплатная открытая нейросеть OpenAI, которая распознаёт речь на 98 языках и которую можно запустить прямо на своём компьютере без оплаты и без отправки данных в облако. Установка сводится к трём шагам (поставить ffmpeg, выполнить pip install -U openai-whisper, запустить команду с указанием языка), а для большинства задач оптимальна модель large-v3-turbo, почти такая же точная, как large-v3, но в восемь раз быстрее. На практике стоит брать не оригинальную реализацию, а ускоренные версии: faster-whisper для своей видеокарты, whisper.cpp для процессора, Mac и телефона, WhisperX для субтитров и разделения по спикерам. На русском у Whisper точность скромнее, чем у российских моделей вроде GigaAM, зато он лучше справляется со смешанной русско-английской речью, а дообученные русские версии опускают ошибки до 5-6%. Если код не для вас, тот же Whisper доступен в готовых программах и сервисах без установки. И главное, помните про приватность: конфиденциальное аудио расшифровывайте только локально или в российском сервисе, потому что облачный API отправляет записи на серверы в США.

Источники

🧠 Модель, реализации и API

  • github.com/openai/whisper, официальный репозиторий, таблица моделей и инструкция запуска
  • huggingface.co, карточка large-v3-turbo (809M, ~8x быстрее)
  • github.com/SYSTRAN/faster-whisper, ускоренная реализация на CTranslate2
  • github.com/ggml-org/whisper.cpp, версия на C++ для CPU, Mac и телефонов
  • developers.openai.com, документация и цены Whisper API

📊 Точность на русском

  • Habr, SberDevices, 04.12.2025, GigaAM-v3 против Whisper large-v3 (6,7% против 20,8%)
  • Habr, 21.02.2026, сравнение Whisper, GigaAM и Vosk на CPU
  • Habr, 17.04.2026, Whisper и GigaAM на смешанной русско-английской речи
  • huggingface.co, дообученная русская версия Whisper (WER 6,39%)

📰 Практика, галлюцинации и приватность

  • Habr, ЮMoney, 20.03.2025, борьба с галлюцинациями Whisper в продакшене
  • Simon Willison, 01.10.2024, разбор модели large-v3-turbo
  • github.com/m-bain/whisperX, таймкоды по словам и диаризация

Часто задаваемые вопросы

Whisper бесплатный или платный?

Зависит от способа запуска. Локальный Whisper полностью бесплатен: модель открыта (лицензия MIT), её код и веса лежат на GitHub, вы ставите её на свой компьютер и расшифровываете сколько угодно без оплаты, цена только в вашем железе и электричестве. Это же касается бесплатных ускоренных версий faster-whisper и whisper.cpp. А облачный API OpenAI платный: от 0,003 до 0,006 доллара за минуту аудио (примерно 0,18-0,36 доллара за час), зато ничего устанавливать не нужно.

Как установить Whisper на Windows?

Три шага. Сначала поставьте ffmpeg: через пакетный менеджер Chocolatey командой choco install ffmpeg или скачайте архив с сайта ffmpeg и пропишите путь в переменную PATH. Затем установите сам Whisper командой pip install -U openai-whisper (нужен Python, надёжнее версии 3.9 или 3.10). Если есть видеокарта NVIDIA, для работы на ней доустановите сборку PyTorch под вашу версию CUDA. После этого запускайте: whisper audio.mp3 --language Russian --model large-v3. Whisper обработает файл и сохранит рядом текст и субтитры.

Какая модель Whisper лучшая?

Для большинства задач оптимальна large-v3-turbo: она распознаёт почти так же точно, как самая большая large-v3, но работает примерно в 8 раз быстрее и требует около 6 ГБ видеопамяти вместо 10. Если нужна максимальная точность и есть мощная видеокарта, берите large-v3. Мелкие модели tiny и base работают быстро и на слабом железе, но на русском заметно ошибаются, их стоит брать только для черновика. Для чистого русского отдельно есть дообученные русские версии Whisper.

Whisper работает на CPU без видеокарты?

Да, но оригинальная реализация на процессоре считает медленно, крупная модель работает дольше длительности самого аудио. Чтобы было быстрее, на CPU берут whisper.cpp (версия на C++ со сжатием моделей, на восьми потоках обрабатывает запись чуть быстрее реального времени) или faster-whisper в режиме INT8. Можно использовать и мелкие модели (small, medium). Для чистого русского без видеокарты сильная альтернатива, российская модель GigaAM, которая на CPU даёт около 3,3% ошибок.

Чем faster-whisper отличается от обычного Whisper?

Это та же модель Whisper, но переписанная на движке CTranslate2. Faster-whisper работает до 4 раз быстрее оригинала при той же точности, требует примерно вдвое меньше видеопамяти (крупная модель помещается в 4,6 ГБ вместо 10) и имеет встроенный детектор речи, который отсекает тишину и заодно убирает часть галлюцинаций. Для большинства пользователей это лучший вариант запуска Whisper на своём железе, поэтому опытные специалисты советуют ставить сразу faster-whisper, а не оригинальную реализацию.

Сколько стоит Whisper API?

Модель whisper-1 и более новая gpt-4o-transcribe стоят около 0,006 доллара за минуту аудио, а облегчённая gpt-4o-mini-transcribe, около 0,003 доллара. То есть час записи обходится примерно в 0,18-0,36 доллара. Есть лимит на размер файла, 25 МБ за один запрос, поэтому длинные записи режут на части или сжимают. Важная деталь: субтитры в форматах SRT и VTT через API отдаёт только модель whisper-1, новые gpt-4o-transcribe возвращают лишь текст.

Почему Whisper выдумывает текст?

У Whisper авторегрессионная природа: модель всегда пытается распознать речь, даже когда её нет. На участках тишины, музыки или сильного шума она может сгенерировать несуществующие слова или зациклиться на повторе фразы. В медицинском исследовании 2024 года такие галлюцинации встречались примерно в 1% фрагментов. Лечится это детектором речевой активности (VAD), который вырезает не-речевые куски (в faster-whisper он встроен), отключением переноса предыдущего контекста и подсказкой словаря терминов через параметр initial_prompt.

Whisper или GigaAM точнее на русском?

На чистом русском обычно точнее GigaAM: по данным SberDevices, их модель GigaAM-v3 даёт около 6,7% ошибок против 20,8% у Whisper large-v3, то есть примерно втрое меньше. Поэтому для лекций, интервью и диктовки на русском берут GigaAM или дообученную русскую версию Whisper. Но у Whisper есть преимущество на смешанной русско-английской речи: он корректно пишет латиницей термины и названия (Docker, Gemini), тогда как GigaAM такие слова ненадёжно переводит в кириллицу. Выбирайте модель под характер записи.

Можно ли пользоваться Whisper для конфиденциального аудио?

Только при локальном запуске. Когда Whisper работает на вашем компьютере (openai-whisper, faster-whisper, whisper.cpp или программа вроде Buzz), аудио и текст не покидают устройство, обработка идёт офлайн — это безопасно для переговоров, медицинских записей и персональных данных. А вот облачный API OpenAI отправляет аудио на серверы в США, что для персональных данных граждан РФ является трансграничной передачей и рискованно по 152-ФЗ. Для чувствительных записей используйте локальный Whisper или российский сервис с обработкой данных в РФ.

Как сделать субтитры через Whisper?

При локальном запуске командная строка Whisper сама сохраняет результат в форматах субтитров SRT и VTT рядом с текстом, ничего дополнительно делать не нужно. Для более точных таймкодов по словам и разделения по спикерам берут WhisperX. Без кода субтитры удобно делать в редакторе Subtitle Edit (он распознаёт через Whisper) или в программе Buzz с экспортом в SRT и VTT. Через облачный API субтитры SRT и VTT отдаёт только модель whisper-1, новые gpt-4o-transcribe возвращают лишь текст.

Сервисы из этой статьи

Логотип Whisper (OpenAI)

Whisper (OpenAI)

Free

Open-source модель автоматического распознавания речи (ASR) от OpenAI на архитектуре Transformer encoder-decoder. Обучена на 680 000 часов многоязычных данных, поддерживает транскрипцию и перевод на английский. Доступна как через API OpenAI, так и для self-hosted-запуска.

ЦенаБесплатный тариф
Логотип TurboScribe

TurboScribe

Free

AI-транскрибация на базе Whisper в 98+ языках с переводом в 134+ языков. Файлы до 10 часов и 5 GB, до 50 файлов одновременно на Unlimited-тарифе. Speaker Recognition, audio restoration и экспорт в PDF, DOCX, SRT, VTT, CSV, TXT.

ЦенаБесплатный тариф
Логотип Any2Text

Any2Text

Free

Российский сервис транскрибации аудио и видео на Whisper. До 98% точности, 50+ языков, 100+ форматов, диаризация спикеров, AI-обработка текста и AI-переводы. Оплата картами РФ, рублёвые тарифы.

ЦенаБесплатный тариф
Логотип Yandex SpeechKit

Yandex SpeechKit

Модуль AI Speech в Yandex AI Studio: распознавание и синтез речи, Realtime API голосовых агентов с откликом < 1 секунды, LLM-обработка результатов, Brand Voice (Lite + Premium) и SpeechKit Hybrid для on-premises. ООО «Яндекс.Облако», в реестре российского ПО.

ЦенаПо запросу

Похожие статьи

Транскрибация аудио и видео в текст: гайд и сервисы | ToolFox

Час интервью вручную расшифровывают 4-6 часов, а нейросети делают это за минуты. Разбираем, как работает распознавание речи, какая модель точнее всего понимает русский и какие сервисы выбрать для аудио, видео и созвонов.

транскрибациярасшифровка аудио
31 мая 2026 г.23 мин

Распознавание речи: SpeechKit, SaluteSpeech и Whisper | ToolFox

Yandex SpeechKit, SaluteSpeech от Сбера и Whisper от OpenAI распознают русскую речь по-разному, и одного победителя нет: всё решают чистота аудио, скорость, цена и требования к данным. Сравниваем три сервиса по реальным бенчмаркам, ценам за час и 152-ФЗ.

распознавание речиwhisper
1 июня 2026 г.14 мин

Видео в текст: как извлечь субтитры и расшифровку | ToolFox

Расшифровать видео-лекцию, вытащить субтитры из ролика или сделать подписи для Reels можно бесплатно и за минуты. Разбираем все способы: встроенную расшифровку YouTube, онлайн-сервисы по ссылке, видеоредакторы и Whisper, с нашим тестом и реальными отзывами.

субтитрытранскрибация
1 июня 2026 г.16 мин

Все статьи блога

Всего 774 статей в блоге ToolFox