Question 1

Что такое Whisper и кто его создал?

Accepted Answer

Whisper — open-source модель распознавания речи (speech-to-text), разработанная OpenAI. Релиз в сентябре 2022, регулярные обновления. Поддержка 100+ языков, лучшая в мире точность для английского, хорошая для большинства языков включая русский. Можно использовать через API OpenAI ($0,006/минута) или self-hosted на своём GPU (бесплатно для коммерческих проектов по лицензии MIT). Поддержка моделей разного размера: tiny, base, small, medium, large, large-v2, large-v3 — больше модель = выше точность, медленнее обработка.

Question 2

Какую модель Whisper выбрать?

Accepted Answer

tiny (39 МБ) — для real-time на CPU, точность 70-80%, скорость 30x real-time. base (74 МБ) — баланс для прототипов, точность 80-87%, 16x real-time. small (244 МБ) — рабочая лошадка, 87-92%, 6x real-time. medium (769 МБ) — стандарт качества, 90-95%, 2x real-time на GPU. large-v3 (1550 МБ) — премиум, 95-98%, 1x real-time на GPU NVIDIA RTX 3080+. Для русского языка лучше всего работает large-v3. Для production использования рекомендуется medium или large-v3 на GPU.

Question 3

API OpenAI или self-hosted?

Accepted Answer

API OpenAI: $0,006/минута, мгновенный старт, не нужна инфраструктура. Минусы: данные уходят на серверы OpenAI (важно для конфиденциальных проектов), лимиты API, требуется интернет. Self-hosted: бесплатно для коммерческих проектов, полный контроль данных, безлимитная обработка, может работать оффлайн. Минусы: нужна DevOps-команда, GPU-сервер ($20-100/мес), время на развёртывание 1-2 недели. Самостоятельное развёртывание окупается при объёмах от 50 000 минут/мес. Для разовых задач — API. Для регулярной работы и конфиденциальных данных — self-hosted.

Question 4

Какие требования к GPU для self-hosted?

Accepted Answer

Минимальные: NVIDIA GPU с 4+ ГБ VRAM (например RTX 3060 от $300) — для модели medium. Рекомендуемые: RTX 3080 или 4070 с 8-12 ГБ VRAM ($500-800) — для large-v3. Облачные варианты: AWS g4dn.xlarge от $0,5/час, Yandex Cloud GPU от 30-50 ₽/час, RunPod от $0,3/час. Для тестов: Google Colab бесплатно с T4 GPU (медленнее, временные ограничения). При полной загрузке GPU 24/7 одна карта обрабатывает 50 000-150 000 минут аудио в месяц — экономия по сравнению с API уже видна.

Question 5

Какие готовые сборки и обёртки?

Accepted Answer

Стандартный Whisper от OpenAI: openai/whisper на GitHub, Python-пакет, лучшая совместимость. faster-whisper: переписан на CTranslate2, в 4 раза быстрее оригинала, рекомендуется для production. whisper.cpp: реализация на C++ для CPU, работает даже на смартфонах. Whisper JAX: версия на JAX от HuggingFace, оптимизирована для TPU. WhisperX: с улучшенной диаризацией спикеров и временными метками. Готовые Docker-образы есть для всех вариантов. Для большинства проектов — faster-whisper, лучший баланс скорости и качества.

Question 6

Точность Whisper на русском языке

Accepted Answer

large-v3 на чистой русской речи — 92-96%. На реальных записях с шумом и плохим качеством — 80-90%. Уступает Yandex SpeechKit и Tinkoff VoiceKit на 1-3% для русского, потому что эти модели обучены преимущественно на русском, а Whisper — мультиязычная. Для критичных задач на русском (медицина, юриспруденция) — Yandex SpeechKit с пользовательскими словарями работает лучше. Для смешанного контента (интервью на нескольких языках) и проектов с конфиденциальностью — Whisper self-hosted предпочтительнее.

Question 7

Сколько стоит обработка через API OpenAI?

Accepted Answer

$0,006 за минуту через Whisper API OpenAI. Расчёт: 1 час видео = 60 минут × $0,006 = $0,36 (≈30 ₽). 100 часов в месяц — $36 (≈3000 ₽). 1000 часов — $360 (≈30 000 ₽). Сравнение с альтернативами: Yandex SpeechKit — 10-30 ₽/мин (в 15-50 раз дороже Whisper API для английского). Self-hosted Whisper на собственном GPU $50/мес — 24-часовая обработка даёт 50 000+ минут (~$0,001/мин). Для small-scale — API. Для средних объёмов — Yandex (для русского) или self-hosted (для английского). Для крупных — обязательно self-hosted.

Whisper OpenAI: API и self-hosted — 1 лучший сервис с тарифами и отзывами

Whisper (OpenAI)

Сравнение сервисов Whisper OpenAI: API и self-hosted

Часто задаваемые вопросы

Whisper OpenAI 2026: API и self-hosted развёртывание

Что такое Whisper

Размеры моделей и выбор

API OpenAI: быстрый старт

Self-hosted развёртывание

Faster Whisper и оптимизации

Сравнение с российскими API для русского