Что такое Whisper
Whisper — open-source модель распознавания речи от OpenAI, релиз в сентябре 2022. Лицензия MIT — можно использовать в коммерческих проектах бесплатно. Поддержка 100+ языков. Лучшая в мире точность для английского (95-98% на чистой речи). Хорошая точность для русского (92-96% large-v3). Доступна через API OpenAI ($0,006/минута) или для self-hosted развёртывания на собственном GPU. Стандарт индустрии — большинство современных сервисов транскрибации используют Whisper или его форки под капотом.
Размеры моделей и выбор
Whisper доступен в 5+ размерах: tiny (39 МБ, 70-80% точности, 30x real-time на CPU) — для прототипирования и real-time с минимальными ресурсами. base (74 МБ, 80-87%, 16x real-time) — баланс для среднего качества. small (244 МБ, 87-92%, 6x real-time) — рабочая лошадка для production. medium (769 МБ, 90-95%, 2x real-time на GPU) — стандарт качества. large-v3 (1550 МБ, 95-98%, 1x real-time на GPU RTX 3080+) — премиум, лучшее качество. Для production-сервисов транскрибации рекомендуется medium или large-v3 на GPU. Для мобильных приложений и embedded — tiny или small на CPU через whisper.cpp.
API OpenAI: быстрый старт
Регистрация на platform.openai.com → получение API-ключа → 5 строк кода на Python: openai.audio.transcribe(file=open("audio.mp3", "rb"), model="whisper-1") → готовый текст транскрипции. Цена: $0,006/минута, оплата по факту использования, минимальный депозит $5. Подходит для прототипов, разовых задач, проектов до 50 000 минут/мес. Минусы: данные уходят на серверы OpenAI (нет для медицины и юриспруденции), есть лимиты API на количество запросов в минуту. Для большинства разработчиков — оптимальный старт.
Self-hosted развёртывание
Для крупных объёмов и конфиденциальных данных — self-hosted на своём GPU. Установка: pip install openai-whisper или faster-whisper. Один Python-файл загружает модель и обрабатывает аудио. Готовые Docker-образы есть на DockerHub. Требования: NVIDIA GPU с 4-12 ГБ VRAM (от RTX 3060 за $300 до RTX 4090 за $2000). Облачные варианты: AWS g4dn.xlarge ($0,5/час), Yandex Cloud GPU (30-50 ₽/час), RunPod ($0,3/час). При полной загрузке 24/7 одна RTX 3080 обрабатывает 80-100 тыс минут аудио в месяц. Стоимость GPU $20-100/мес окупается уже на 50 000 минут/мес обработки.
Faster Whisper и оптимизации
Стандартный Whisper от OpenAI медленный — для production используйте оптимизированные форки. faster-whisper: переписан на CTranslate2 движке, в 4 раза быстрее оригинала, тот же API, рекомендуется для большинства проектов. whisper.cpp: C++ реализация для CPU, работает на любом устройстве включая Raspberry Pi и смартфоны. Whisper JAX: версия на JAX от HuggingFace, оптимизирована для TPU. WhisperX: с улучшенной диаризацией спикеров (определение «кто что сказал») и точными временными метками. Все варианты совместимы с моделями OpenAI — можно использовать одну и ту же модель large-v3 в разных средах.
Сравнение с российскими API для русского
На русской речи Yandex SpeechKit и Tinkoff VoiceKit показывают точность на 1-3% выше Whisper large-v3 в чистых условиях. На сложных кейсах (специальная терминология, акценты, шум) разница больше — российские API лучше за счёт обучения преимущественно на русском контенте. Whisper выигрывает: 1) Бесплатно для коммерческого использования при self-hosted; 2) Безлимитная обработка; 3) Полный контроль данных; 4) Поддержка многоязычных записей (русский+английский в одном файле). Для проектов на чистом русском — Yandex SpeechKit оптимален. Для проектов с конфиденциальностью или многоязычным контентом — Whisper.