Whisper от OpenAI — это бесплатная открытая нейросеть для распознавания речи, которой пользуются десятки сервисов транскрибации. Запустить её можно прямо на своём компьютере без интернета и без оплаты, но новичков пугают установка через командную строку, выбор модели и галлюцинации на тишине. Разберём по шагам, как запустить Whisper для русского языка, какая модель нужна под ваше железо, насколько точно она работает и сколько стоит облачный вариант через API.
Whisper появился в открытом доступе в 2022 году и быстро стал стандартом для расшифровки аудио: на нём построены и платные сервисы, и десктопные программы, и боты в мессенджерах. Эта статья продолжает наш полный гайд по транскрибации аудио и видео в текст и подробно разбирает именно Whisper, от установки до тонких настроек.
Что такое Whisper и кому он подходит
Whisper — это нейросеть для автоматического распознавания речи (по-английски speech-to-text или ASR), которую OpenAI выложила в открытый доступ. Модель обучена примерно на 680 000 часов аудио на разных языках и умеет переводить речь в текст на 98 языках, включая русский. Главное её отличие от облачных сервисов в том, что Whisper открыта (лицензия MIT) и её можно запускать на своём компьютере бесплатно.
Именно поэтому Whisper стал основой целой экосистемы. На нём работают платные сервисы транскрибации, десктопные программы, плагины для видеоредакторов и боты, которые расшифровывают голосовые сообщения. Когда сервис обещает «распознавание на базе ИИ», под капотом, как правило, либо сам Whisper, либо его ускоренная версия.
Кому Whisper подходит лучше всего:
- Разработчикам и техническим специалистам, которым нужно встроить распознавание речи в свой продукт или автоматизировать обработку большого объёма записей.
- Тем, кому важна приватность, поскольку локальный запуск не отправляет аудио ни на какие сторонние серверы (об этом подробно ниже).
- Энтузиастам с подходящим железом, готовым один раз настроить инструмент ради бесплатной и неограниченной расшифровки.
А вот если командная строка пугает, а расшифровка нужна разово, проще взять готовую программу или сервис на том же Whisper, не устанавливая ничего. Эти варианты разберём в отдельном разделе.
Главное здесь: Whisper — это открытая бесплатная нейросеть OpenAI для распознавания речи на 98 языках; она лежит в основе многих сервисов, а её ключевое преимущество, возможность запустить локально на своём компьютере без оплаты и без отправки данных в облако.
Whisper бесплатный или платный?
Это первый вопрос, который возникает, и ответ зависит от того, как вы запускаете модель. Есть два пути, и они принципиально разные по цене.
Локальный запуск, бесплатно. Сама модель открыта, её код и веса лежат на GitHub под лицензией MIT. Вы скачиваете Whisper, ставите на свой компьютер и расшифровываете сколько угодно аудио без какой-либо оплаты. Единственная цена — это ваше железо (желательно видеокарта) и электричество. Сюда же относятся бесплатные ускоренные версии faster-whisper и whisper.cpp.
Облачный API OpenAI, платно. Если своего мощного компьютера нет или нужно встроить распознавание в сервис, OpenAI предоставляет Whisper через API за деньги: от 0,003 до 0,006 доллара за минуту аудио, то есть примерно от 0,18 до 0,36 доллара за час. Платите по факту использования, ничего устанавливать не нужно, но аудио уходит на серверы OpenAI.
0 ₽
столько стоит транскрибация на локальном Whisper: модель открыта (лицензия MIT) и работает офлайн, платить нужно только за своё железо и электричество. Облачный API OpenAI берёт от 0,003 доллара за минуту, удобно, но аудио при этом уходит на зарубежные серверы.
Сама модель, основа и для бесплатного локального запуска, и для платного API:
Для большинства задач логика простая. Регулярно расшифровываете много записей и есть нормальный компьютер, локальный Whisper окупит установку. Нужно изредка и без возни, проще заплатить за API или взять готовый сервис. Если же запись конфиденциальная, выбор фактически только один, локально.
Главное здесь: локальный Whisper бесплатен (открытая модель под MIT, запуск офлайн), а облачный API OpenAI стоит от 0,003 доллара за минуту; выбор между ними зависит от объёма, наличия железа и требований к приватности.
Модели Whisper: какую выбрать
У Whisper не одна модель, а целое семейство разного размера. Чем больше модель, тем точнее распознавание, но тем больше нужно видеопамяти и тем медленнее работа. Выбор модели — это главная развилка при настройке.
| Модель | Параметры | Видеопамять | Скорость | Для чего |
|---|---|---|---|---|
| tiny | 39 млн | ~1 ГБ | ~10x | Черновик, слабое железо, реалтайм |
| base | 74 млн | ~1 ГБ | ~7x | Быстро, но на русском слабо |
| small | 244 млн | ~2 ГБ | ~4x | Компромисс на слабом GPU |
| medium | 769 млн | ~5 ГБ | ~2x | Неплохо на русском, средний GPU |
| large-v3 | 1,55 млрд | ~10 ГБ | 1x | Максимум точности, нужен мощный GPU |
| large-v3-turbo | 809 млн | ~6 ГБ | ~8x | Лучший баланс, дефолт в 2026 |
На практике большинству стоит начинать с large-v3-turbo: это облегчённая версия large-v3, которая распознаёт почти так же точно, но работает примерно в 8 раз быстрее и требует около 6 ГБ видеопамяти вместо 10. Если нужна максимальная точность и есть видеокарта помощнее, берите large-v3. Мелкие модели (tiny, base) на русском заметно ошибаются, их есть смысл брать только для черновика или на очень слабом железе.
Отдельный нюанс: версии с пометкой .en (например base.en) обучены только на английском. Для русского языка нужны обычные мультиязычные версии, а turbo вдобавок не умеет переводить речь на другой язык, для перевода берут large.
Главное здесь: модели Whisper различаются размером, от tiny (39 млн параметров, 1 ГБ) до large-v3 (1,55 млрд, 10 ГБ); оптимальный выбор для большинства, large-v3-turbo (почти точность large-v3 при восьмикратной скорости и 6 ГБ видеопамяти), а мелкие модели для русского слабоваты.
Как установить и запустить Whisper
Базовый запуск Whisper идёт через командную строку и сводится к трём шагам. Это проще, чем кажется, и работает на Windows, macOS и Linux.
Шаг 1. Поставить ffmpeg. Это бесплатная утилита для работы со звуком, без неё Whisper не прочитает аудиофайл. На macOS, brew install ffmpeg, на Windows, choco install ffmpeg (через пакетный менеджер Chocolatey) или скачать архив с сайта и прописать путь в переменную PATH, на Ubuntu, sudo apt install ffmpeg.
Шаг 2. Установить сам Whisper. Нужен установленный Python (надёжнее версии 3.9 или 3.10). Одна команда ставит пакет:
pip install -U openai-whisper
Вместе с ним подтянется PyTorch, библиотека для нейросетей. Если у вас есть видеокарта NVIDIA, для работы на ней понадобится сборка PyTorch под вашу версию CUDA, её ставят с указанием специального адреса через --extra-index-url с сайта PyTorch.
Шаг 3. Запустить распознавание. Указываете файл, язык и модель:
whisper audio.mp3 --language Russian --model large-v3
Whisper запустит процесс распознавания и положит результат в ту же папку сразу в нескольких форматах: текстовый файл (TXT), а также субтитры (SRT и VTT). На вход он принимает популярные форматы аудио, например MP3, WAV и M4A. Параметр --language Russian важен: без явного указания языка модель определяет его сама, но с подсказкой работает точнее и быстрее.
По поводу железа. На видеокарте (GPU) Whisper считает быстро, час записи обрабатывается за минуты. На обычном процессоре (CPU) без видеокарты он тоже запустится, но крупная модель будет работать дольше длительности самого аудио, иногда в разы. Для CPU есть отдельные быстрые версии, о них дальше.
Главное здесь: установка Whisper — это три шага, поставить ffmpeg, выполнить pip install -U openai-whisper, запустить командой с указанием языка и модели; на видеокарте работает быстро, на процессоре медленно, поэтому для CPU берут ускоренные версии.
Точность Whisper на русском языке
Здесь важно быть честным: на русском Whisper работает заметно хуже, чем на английском, и сильно зависит от модели и качества записи. Официальной единой цифры точности для русского OpenAI не публикует, но независимые замеры дают понятную картину.
На чистой студийной речи ускоренная модель large-v3-turbo показывает около 7,9% ошибок (метрика WER, доля неверно распознанных слов). Базовая мелкая модель base на русском ошибается примерно в 32,6% случаев, а полноразмерная large-v3 в среднем по разным записям, около 20,8%. То есть в реальных условиях (звонки, шум, несколько говорящих) у обычного Whisper на русском стоит ожидать 15-25% ошибок, что требует заметной вычитки.
| Версия Whisper | Ошибки (WER) на русском | Условия |
|---|---|---|
| base | ~32,6% | Мелкая модель, тест на CPU |
| large-v3 | ~20,8% | Среднее по 7 русским наборам |
| large-v3-turbo | ~7,9% | Чистая студийная речь |
| antony66 (дообученная) | ~6,39% | Дообучена на русском, телефония |
| bond005/podlodka | ~5,22% | Дообучена, чинит пунктуацию |
Точность сильно повышают дообученные на русском версии, которые энтузиасты выкладывают в открытый доступ. Например, модель antony66 снижает ошибки с 9,84% до 6,39% на эталонном русском наборе, а bond005 на базе turbo дополнительно чинит русскую пунктуацию и заглавные буквы. Их ставят вместо стандартной модели, когда нужен именно русский.
Главное здесь: на русском у базового Whisper точность скромная (от ~8% ошибок на чистой речи до 20-33% на шуме и мелких моделях), но дообученные русские версии (antony66, bond005) опускают ошибки до 5-6%; рекламной «99% точности» в реальных условиях ждать не стоит.
Whisper или GigaAM точнее на русском?
Многие ставят Whisper по привычке, считая его лучшим, и для русского это не всегда верно. Российские открытые модели, обученные именно на русской речи, в среднем точнее. По данным SberDevices, их модель GigaAM-v3 даёт около 6,7% ошибок на русском против 20,8% у Whisper large-v3, то есть ошибается примерно втрое реже. Для телефонии и звонков хороша открытая модель T-one от Т-Банка. Подробное сравнение моделей есть в нашем гайде по транскрибации.
Но у Whisper есть своя сильная сторона, о которой редко пишут. Он лучше справляется со смешанной русско-английской речью: ИТ-разговоры, термины, названия продуктов вроде Docker или Gemini он пишет латиницей корректно, тогда как GigaAM такие слова ненадёжно переводит в кириллицу. В тесте на дикторской речи их точность почти совпала (Whisper 7,9% против GigaAM 7,7%), а на текстах с обилием английских терминов Whisper удобнее.
Практический вывод. Чистый русский (лекции, интервью, диктовка), берите GigaAM или дообученную русскую версию Whisper. Много английских терминов вперемешку с русским, Whisper large подойдёт лучше. А если нужна не точность любой ценой, а простота, выбор часто решает не модель, а удобство запуска.
Главное здесь: на чистом русском GigaAM обычно точнее Whisper (около 6,7% против 20,8% ошибок), но Whisper заметно лучше держит смешанную русско-английскую речь и технические термины; выбирайте модель под характер записи.
Как ускорить Whisper: faster-whisper, whisper.cpp и WhisperX
Стандартный Whisper не самый быстрый, и сообщество сделало несколько ускоренных версий с той же моделью внутри. Это ключ к тому, чтобы Whisper работал быстро даже без топовой видеокарты.
| Версия | Что даёт | Когда брать |
|---|---|---|
| faster-whisper | До 4 раз быстрее, памяти вдвое меньше, встроенный фильтр тишины | Универсальный выбор для своего железа |
| whisper.cpp | Версия на C++, без Python, сжатые модели, работает на Mac, Raspberry Pi, телефоне | CPU, слабое железо, мобильные |
| WhisperX | Точные таймкоды по словам плюс разделение по спикерам | Субтитры, интервью, диаризация |
faster-whisper — это переписанная на движке CTranslate2 версия, которая работает до 4 раз быстрее оригинала при той же точности, требует примерно вдвое меньше видеопамяти (крупная модель помещается в 4,6 ГБ вместо 10) и имеет встроенный детектор речи, отсекающий тишину. Для большинства это лучший вариант. whisper.cpp — это порт на язык C++, который не требует Python, умеет сжимать модели и запускается даже на слабом процессоре, Raspberry Pi и смартфоне. WhisperX добавляет к Whisper точные таймкоды по словам и определение, кто из участников говорит, что важно для субтитров и расшифровки интервью.
«Главный совет тем, кто только ставит Whisper: не берите оригинальную реализацию, берите сразу faster-whisper. Это та же модель, та же точность, но в разы быстрее и с куда меньшим аппетитом к видеопамяти. У меня large-v3 на оригинале не влезала в видеокарту, а на faster-whisper заработала с запасом. Плюс встроенный детектор речи сразу убирает половину проблем с галлюцинациями на тишине. Оригинальный Whisper хорош как эталон, но в реальной работе все, кого я знаю, давно сидят на faster-whisper или whisper.cpp».
— Антон Жигалов, инженер по машинному обучению, Новосибирск, опыт 8 лет.
Главное здесь: оригинальный Whisper медленный, поэтому на практике берут ускоренные версии, faster-whisper (до 4 раз быстрее, меньше памяти, фильтр тишины), whisper.cpp (для CPU, Mac и телефонов) или WhisperX (таймкоды по словам и разделение по спикерам).
Whisper на CPU и на телефоне
Видеокарта есть не у всех, и это не повод отказываться от Whisper. На обычном процессоре он работает, просто медленнее, и тут спасают правильные инструменты.
Лучший выбор для процессора — это whisper.cpp. Он написан на C++ и поддерживает сжатие моделей (квантизацию), за счёт чего занимает меньше памяти и считает быстрее. На восьми потоках процессора он обрабатывает запись чуть быстрее реального времени, чего для большинства задач достаточно. Альтернатива, faster-whisper с режимом INT8, который тоже хорошо работает на CPU.
На Apple-компьютерах с чипами M-серии whisper.cpp использует встроенный нейроускоритель и графику, поэтому распознаёт быстро без отдельной видеокарты. А поскольку whisper.cpp портирован на iOS и Android, Whisper в принципе можно запустить и на смартфоне, через приложения на его основе с небольшими сжатыми моделями.
Отдельно стоит помнить про российские модели: на CPU GigaAM показывает очень хорошую точность на русском (около 3,3% ошибок в независимом тесте), так что для чистого русского без видеокарты это сильная альтернатива.
Главное здесь: без видеокарты Whisper тоже работает, для этого берут whisper.cpp (сжатые модели, чуть быстрее реального времени на 8 потоках) или faster-whisper в режиме INT8; на Mac с чипами M-серии и даже на смартфоне Whisper запускается через whisper.cpp.
Программы с Whisper без кода и установки
Если командная строка и Python не для вас — это нормально: тот же Whisper доступен в готовых программах с обычным интерфейсом и в онлайн-сервисах, где ничего ставить не надо.
Из бесплатных программ удобна Buzz, кроссплатформенное приложение (Windows, macOS, Linux), которое распознаёт аудио и видео офлайн на движке Whisper и экспортирует результат в текст и субтитры. На Mac популярно нативное приложение MacWhisper, есть и кроссплатформенная Vibe. Для субтитров часто используют редактор Subtitle Edit, который умеет расшифровывать через Whisper и сразу собирать готовые субтитры.
Ещё проще, онлайн-сервисы на базе Whisper, куда вы просто загружаете файл. Например, TurboScribe работает на Whisper, поддерживает русский и видео, в том числе по ссылке на YouTube, и отдаёт субтитры:
Из российских вариантов на Whisper есть Any2Text с рублёвой оплатой и поддержкой диаризации, удобно, когда нужен русский интерфейс и оплата картой РФ без подписки:
«Я монтирую видео и делаю субтитры, и для меня важна не возня с кодом, а результат. Раньше я расшифровывала на слух, теперь прогоняю дорожку через программу на Whisper и получаю готовые субтитры с таймкодами за минуты, остаётся только вычитать. Тем, кто не из ИТ, я всегда советую начинать с программы с интерфейсом или с сервиса, а не с командной строки. Whisper под капотом тот же, а порог входа в разы ниже».
— Вера Лаврова, специалист по субтитрам и локализации видео, Казань, опыт 9 лет.
Главное здесь: пользоваться Whisper можно и без кода, через бесплатные программы с интерфейсом (Buzz, MacWhisper, Subtitle Edit) или онлайн-сервисы на его базе (TurboScribe, Any2Text); под капотом та же модель, а устанавливать ничего не нужно.
Whisper API: цены, лимиты и субтитры
Когда распознавание нужно встроить в свой сервис или обработать записи без своего железа, используют облачный API OpenAI. Платите по факту, за минуты обработанного аудио.
Цены на момент написания такие: модель whisper-1 и более новая gpt-4o-transcribe стоят около 0,006 доллара за минуту, а облегчённая gpt-4o-mini-transcribe, около 0,003 доллара. То есть час аудио обходится примерно в 0,18-0,36 доллара. Есть важный лимит: один файл, не больше 25 МБ, длинные записи приходится резать на части или сжимать.
Тонкость, о которой часто забывают: субтитры в форматах SRT и VTT, а также детальные таймкоды отдаёт только старая модель whisper-1. Новые gpt-4o-transcribe возвращают лишь обычный текст или JSON, поэтому для субтитров через API берут именно whisper-1. Для распознавания через API полезен и параметр language (код языка, для русского ru), и параметр prompt, через который можно подсказать модели термины, имена и стиль.
«Через API удобно автоматизировать поток записей, но новички спотыкаются на двух вещах. Первое, лимит в 25 мегабайт: часовое интервью туда не влезет, надо резать или жать в формат пониже. Второе, путают модели: ставят новую gpt-4o-transcribe и удивляются, что нет субтитров SRT, а они есть только у whisper-1. Я для конвейеров обычно беру whisper-1, если нужны таймкоды, и подсказываю модели словарь терминов через параметр prompt — это заметно снижает ошибки в названиях».
— Сергей Пастухов, Python-разработчик, автоматизация транскрибации, Москва, опыт 10 лет.
Главное здесь: облачный Whisper API стоит от 0,003 до 0,006 доллара за минуту, ограничивает файл 25 МБ, а субтитры SRT и VTT отдаёт только модель whisper-1 (новые gpt-4o-transcribe, лишь текст); для русского указывайте язык и подсказывайте термины через параметр prompt.
Почему Whisper «галлюцинирует» и как это починить
У Whisper есть известная особенность, которая удивляет новичков: на участках тишины, музыки или сильного шума он может выдумать текст, которого не было, или зациклиться на повторе одной фразы. В медицинском исследовании 2024 года такие выдумки встречались примерно в 1% фрагментов, иногда это были даже несуществующие фразы. Причина в самой природе модели: она всегда пытается «услышать» речь, даже когда её нет.
Лечится это несколькими полезными приёмами, и большинство из них уже встроено в ускоренные версии. Главный — это детектор речевой активности (VAD): он заранее вырезает не-речевые куски, чтобы модель их не «слушала». В faster-whisper такой фильтр встроен и часто включён по умолчанию, что само по себе убирает большую часть галлюцинаций. Дополнительно помогают настройки: отключение переноса предыдущего контекста (condition_on_previous_text=False), чтобы модель не повторяла прошлый текст при неуверенности, и подсказка словаря через initial_prompt с нужными терминами и именами.
Для русского отдельно стоит помнить, что базовый Whisper своеобразно ставит пунктуацию и иногда путает термины. Это чинят либо дообученными русскими моделями (bond005 специально исправляет пунктуацию), либо аккуратной вычиткой результата. Машинная расшифровка почти всегда требует финальной правки человеком, и закладывать на неё время, нормально.
Главное здесь: Whisper выдумывает текст на тишине и шуме примерно в 1% случаев из-за своей природы; лечится это детектором речи (VAD, встроен в faster-whisper), отключением переноса контекста и подсказкой терминов, а для русской пунктуации, дообученными моделями и вычиткой.
Можно ли использовать Whisper для конфиденциального аудио?
Это важный вопрос, который часто упускают. Ответ зависит от того, локально вы запускаете Whisper или через облако, и разница принципиальная.
Локальный Whisper, безопасно. Когда модель работает на вашем компьютере (через openai-whisper, faster-whisper, whisper.cpp или программу вроде Buzz), аудио и текст никуда не уходят, обработка идёт офлайн. Это критично для переговоров, медицинских записей, собеседований и любых разговоров с персональными данными. По 152-ФЗ такие данные нельзя бездумно отправлять третьим лицам, а локальная обработка эту проблему снимает полностью.
Облачный API, осторожно. При использовании Whisper API аудио уходит на серверы OpenAI в США. Для персональных данных граждан РФ это трансграничная передача, которая требует отдельного правового основания, а для чувствительных записей (медтайна, коммерческие переговоры) облако обычно вообще неприемлемо. В этом случае берут либо локальный Whisper, либо российские сервисы с обработкой данных в РФ, как Yandex SpeechKit:
Простое правило: если запись содержит персональные или конфиденциальные данные, расшифровывайте её локально или в российском сервисе с обработкой в РФ. Для публичного подкаста или лекции это избыточно, а для записи с клиентскими данными, обязательно.
Главное здесь: для конфиденциального аудио подходит только локальный Whisper (данные не покидают компьютер) или российский сервис с обработкой в РФ; облачный API OpenAI отправляет аудио на серверы в США, что для персональных данных рискованно по 152-ФЗ.
Как выбрать способ запуска Whisper
Способов запустить Whisper много, и выбор зависит от того, умеете ли вы работать с кодом, какое у вас железо и насколько важна приватность.
Главное здесь: выбирайте способ запуска под себя, не-разработчику, программа или сервис; разработчику с GPU, faster-whisper; без видеокарты, whisper.cpp; для встраивания в продукт, API; модель по умолчанию large-v3-turbo, а для конфиденциального аудио, только локально.
5 ошибок при работе с Whisper
Ошибка 1: «Поставлю оригинальный Whisper, он же официальный»
Что не так: оригинальная реализация медленная и прожорливая по видеопамяти; крупная модель часто не влезает в видеокарту и еле ползёт на процессоре.
Что делать: ставить faster-whisper (та же точность, до 4 раз быстрее, вдвое меньше памяти) или whisper.cpp для слабого железа.
Ошибка 2: «Whisper лучший, ставлю его на чистый русский»
Что не так: на чистом русском Whisper в среднем втрое менее точен, чем российские модели (около 20,8% против 6,7% ошибок).
Что делать: для чистого русского брать GigaAM или дообученную русскую версию Whisper; обычный Whisper оставить для смешанной русско-английской речи.
Ошибка 3: «Залью запись переговоров через API, так удобнее»
Что не так: через API аудио уходит на серверы OpenAI в США; для персональных и конфиденциальных данных это нарушает требования 152-ФЗ.
Что делать: конфиденциальное аудио расшифровывать только локально или в российском сервисе с обработкой данных в РФ.
Ошибка 4: «Текст с тишины, наверное, так и было сказано»
Что не так: на тишине и шуме Whisper выдумывает фразы; без фильтра тишины в расшифровку попадает несуществующий текст.
Что делать: использовать версию со встроенным детектором речи (faster-whisper) и обязательно вычитывать результат.
Ошибка 5: «Поставил gpt-4o-transcribe, а субтитров нет»
Что не так: новые модели gpt-4o-transcribe возвращают только текст; форматы субтитров SRT и VTT через API отдаёт лишь whisper-1.
Что делать: для субтитров через API использовать модель whisper-1 либо генерировать их в программе (Subtitle Edit, Buzz).
Вывод
Whisper — это бесплатная открытая нейросеть OpenAI, которая распознаёт речь на 98 языках и которую можно запустить прямо на своём компьютере без оплаты и без отправки данных в облако. Установка сводится к трём шагам (поставить ffmpeg, выполнить pip install -U openai-whisper, запустить команду с указанием языка), а для большинства задач оптимальна модель large-v3-turbo, почти такая же точная, как large-v3, но в восемь раз быстрее. На практике стоит брать не оригинальную реализацию, а ускоренные версии: faster-whisper для своей видеокарты, whisper.cpp для процессора, Mac и телефона, WhisperX для субтитров и разделения по спикерам. На русском у Whisper точность скромнее, чем у российских моделей вроде GigaAM, зато он лучше справляется со смешанной русско-английской речью, а дообученные русские версии опускают ошибки до 5-6%. Если код не для вас, тот же Whisper доступен в готовых программах и сервисах без установки. И главное, помните про приватность: конфиденциальное аудио расшифровывайте только локально или в российском сервисе, потому что облачный API отправляет записи на серверы в США.
Источники
🧠 Модель, реализации и API
- github.com/openai/whisper, официальный репозиторий, таблица моделей и инструкция запуска
- huggingface.co, карточка large-v3-turbo (809M, ~8x быстрее)
- github.com/SYSTRAN/faster-whisper, ускоренная реализация на CTranslate2
- github.com/ggml-org/whisper.cpp, версия на C++ для CPU, Mac и телефонов
- developers.openai.com, документация и цены Whisper API
📊 Точность на русском
- Habr, SberDevices, 04.12.2025, GigaAM-v3 против Whisper large-v3 (6,7% против 20,8%)
- Habr, 21.02.2026, сравнение Whisper, GigaAM и Vosk на CPU
- Habr, 17.04.2026, Whisper и GigaAM на смешанной русско-английской речи
- huggingface.co, дообученная русская версия Whisper (WER 6,39%)
📰 Практика, галлюцинации и приватность
- Habr, ЮMoney, 20.03.2025, борьба с галлюцинациями Whisper в продакшене
- Simon Willison, 01.10.2024, разбор модели large-v3-turbo
- github.com/m-bain/whisperX, таймкоды по словам и диаризация



