Перейти к содержимому

Как перевести аудио и видео в текст: полный гайд по транскрибации

Как перевести аудио и видео в текст: как работает распознавание речи, точность нейросетей на русском, обзор сервисов, бесплатные способы, субтитры и риски 152-ФЗ.

23 мин чтения
Руслан Авдеев
транскрибациярасшифровка аудиоаудио в текствидео в текстраспознавание речиspeech to textwhisperсубтитрыдиаризациянейросети
Как перевести аудио и видео в текст: звуковая дорожка проходит через нейросеть распознавания речи и превращается в готовый текст с пунктуацией, разделением по спикерам и таймкодами. Сервисы Whisper, Yandex SpeechKit, SaluteSpeech, TurboScribe, Speech2Text

Час записанного интервью вручную расшифровывают 4-6 часов, а биржи фриланса берут по 15-20 ₽ за минуту аудио. Нейросети делают ту же работу за минуты и почти бесплатно, но у одних беда с русскими ударениями и пунктуацией, другие путают спикеров, а самый известный западный сервис вообще не знает русского. Разберём, как работает распознавание речи, какая модель точнее всего понимает русский язык и какие сервисы реально подходят для интервью, лекций, видео и созвонов.

Ещё несколько лет назад автоматическая расшифровка выдавала нечитаемое полотно слов без знаков препинания, и проще было набрать текст вручную. Сегодня нейросети распознают русскую речь с точностью выше 90%, расставляют пунктуацию, делят разговор по спикерам и сразу отдают субтитры. Этот материал, часть нашей серии разборов нейросетей для работы со звуком и текстом, и здесь мы сфокусируемся на обратной задаче, переводе аудио и видео в текст.

Что такое транскрибация и чем она отличается от расшифровки

Транскрибация — это перевод устной речи из аудио- или видеозаписи в текст. В рунете слова «транскрибация» и «расшифровка» используются как синонимы: и на биржах фриланса, и в технических статьях ими называют одно и то же, превращение звука в читаемый текст. Раньше это делал человек на слух, теперь, чаще всего, нейросеть.

За автоматической транскрибацией стоит технология распознавания речи, по-английски speech-to-text (STT) или automatic speech recognition (ASR). Модель анализирует звуковую волну, разбивает её на фрагменты, сопоставляет с тем, как звучат слова, и собирает текст. Современные движки делают больше, чем просто набор слов: они расставляют знаки препинания, делят запись на абзацы и реплики, добавляют таймкоды.

Чтобы разобраться в теме, полезно знать несколько терминов, которые встретятся в любом сервисе:

  • Диаризация (разделение по спикерам), определение, кто из участников разговора что сказал. Критично для интервью и созвонов: без неё расшифровка превращается в монолитный текст без понимания, где чья реплика.
  • Таймкоды (тайм-коды, временные метки), привязка реплик к моменту записи, нужна для субтитров и быстрой ручной правки.
  • Субтитры SRT и VTT, текстовые форматы с таймкодами, которые понимают видеоплееры и YouTube. Почти все сервисы умеют экспортировать расшифровку видео сразу в субтитры.
  • WER (word error rate), метрика точности: доля ошибочных слов относительно эталона. Чем ниже WER, тем точнее распознавание. Именно по WER модели сравнивают между собой.

Главное практическое отличие касается не терминов, а качества: дешёвый или старый движок отдаёт «полотно» слов, которое всё равно придётся вычитывать, а хорошая модель, готовый текст, где правок минимум. Поэтому выбор сервиса — это в первую очередь выбор модели распознавания под ваш язык и тип записи.

Главное здесь: транскрибация и расшифровка — это одно и то же, перевод речи в текст; за ней стоит распознавание речи (STT/ASR), а ключевые понятия, диаризация (деление по спикерам), таймкоды, субтитры SRT/VTT и метрика точности WER.

Как работает автоматическое распознавание речи

Процесс автоматической транскрибации проходит несколько этапов, и понимание их помогает объяснить, почему одни аудиозаписи распознаются идеально, а другие, с ошибками. Сначала сервис обрабатывает звук: нормализует громкость, по возможности подавляет шумы и определяет, где в записи речь, а где пауза или фоновый гул. Этот шаг называют детекцией речевой активности, и от него сильно зависит итог.

Схема работы транскрибации: звуковая запись проходит предобработку и детекцию речи, затем нейросеть-распознаватель переводит звук в слова, после чего модель расставляет пунктуацию и делит текст по спикерам, на выходе готовая расшифровка, субтитры SRT/VTT и документ DOCX

Дальше за дело берётся нейросеть-распознаватель. Она обучена на сотнях тысяч часов речи и умеет сопоставлять звук с наиболее вероятной последовательностью слов с учётом контекста. Современные модели понимают, что после одних слов вероятнее идут другие, поэтому реже путают похожие по звучанию варианты. На выходе получается «сырой» текст, поток распознанных слов.

Затем включается постобработка: отдельная модель расставляет знаки препинания, разбивает текст на предложения и абзацы, а при поддержке диаризации помечает, кто говорит. Готовый результат сервис отдаёт в нужном формате: обычный текст, документ DOCX, таблицу или субтитры с таймкодами.

Качество на каждом этапе зависит от исходной записи. Чистый звук с одним диктором распознаётся почти без ошибок, а шумная запись с телефона, где говорят наперебой, даёт куда более высокий WER. Поэтому хорошая запись, половина успеха, и об этом отдельно поговорим ниже.

Главное здесь: транскрибация идёт в три шага, предобработка и детекция речи, распознавание нейросетью, постобработка с пунктуацией и диаризацией; качество итога напрямую зависит от чистоты исходной записи.

Кому и зачем нужно переводить аудио в текст

Спрос на транскрибацию вырос вместе с тем, как много мы стали записывать. Созвоны, лекции, подкасты, интервью, голосовые сообщения, всё это удобно слушать, но неудобно искать и цитировать. Текст решает проблему: по нему можно искать, его можно отредактировать, переслать, превратить в статью.

Кому это нужно чаще всего:

  • Журналистам и исследователям, расшифровать записанное интервью, чтобы достать из него цитаты и факты, не переслушивая часами.
  • Студентам и преподавателям, перевести запись лекции или вебинара в конспект, по которому удобно готовиться.
  • Бизнесу, сохранить расшифровку совещаний и созвонов с клиентами, чтобы зафиксировать договорённости и не потерять детали.
  • Контент-мейкерам, превратить подкаст или видео в текст для статьи, поста или субтитров. Готовую расшифровку легко довести до публикации с помощью нейросетей для копирайтинга или собрать из неё серию постов для соцсетей.
  • Юристам и кадровикам, оформить запись разговора или собеседования в текстовый протокол.

Объём рынка распознавания речи это подтверждает: по оценке MarketsandMarkets, мировой сегмент speech and voice recognition вырос с 8,49 млрд долларов в 2024 году до 9,66 млрд в 2025-м и, по прогнозу, достигнет 23,11 млрд к 2030 году при среднегодовом росте около 19%. Драйвер очевиден: голосового контента всё больше, а время на ручную обработку никто не хочет тратить.

Главное здесь: транскрибация нужна всем, кто работает с записанной речью, журналистам, студентам, бизнесу, контент-мейкерам и юристам; рынок распознавания речи растёт почти на 19% в год именно потому, что голосового контента становится всё больше.

Сколько времени и денег съедает ручная расшифровка

Чтобы понять ценность автоматики, полезно посмотреть, во что обходится ручная транскрибация. Опытные расшифровщики оценивают труд по соотношению времени: на один час качественной записи уходит, как правило, 4-6 часов работы. Если звук приглушённый, голоса перекрывают друг друга или много терминов, соотношение доходит до 10 часов работы на час аудио и больше.

В деньгах это выглядит так. На биржах фриланса расшифровка стоит примерно 15-20 ₽ за минуту аудио у опытных исполнителей, то есть час интервью обходится в 1500-1800 ₽, а двухчасовой вебинар, в 6-8 тысяч рублей. Новички берут дешевле, от 8-10 ₽ за минуту, но и качество, и сроки у них менее предсказуемы.

Теперь сравните это с автоматикой: нейросеть распознаёт тот же час записи за несколько минут, а стоит это либо бесплатно (в пределах лимитов), либо несколько рублей. Даже с учётом того, что машинную расшифровку придётся вычитать и поправить, экономия времени и денег получается кратной. Именно поэтому ручную транскрибацию сегодня заказывают в основном там, где нужна юридическая точность каждого слова или работа с очень плохим звуком.

Главное здесь: ручная расшифровка часа аудио — это 4-6 часов работы и 1500-1800 ₽ у фрилансера; нейросеть делает то же за минуты и за копейки, поэтому ручной труд остаётся в основном для записей с юридической точностью или очень плохим звуком.

Какая нейросеть точнее всего распознаёт русскую речь?

Это главный вопрос, и ответ многих удивляет: самый известный движок, Whisper от OpenAI, на русском далеко не лучший. Whisper, безусловно, хорош как мультиязычная модель и лежит в основе десятков сервисов, но обучен он на 680 тысячах часов записей на 99 языках, и русского в этом объёме сравнительно немного.

Российские команды обучили модели именно на русской речи, и результат говорит сам за себя. В декабре 2025 года Sber выложил в открытый доступ GigaAM-v3, модель распознавания, обученную на 700 тысячах часов аудио под лицензией MIT. По данным разработчиков, её средний WER на русском составляет 6,7% против 20,8% у Whisper large-v3, то есть ошибок примерно втрое меньше.

6,7% против 20,8%

таков средний WER (доля ошибочных слов) у российской модели GigaAM-v3 и у популярного Whisper large-v3 на русской речи. Точнее всего русский распознают модели, обученные именно на русском, а не самый раскрученный мультиязычный движок.

Независимая проверка это подтверждает. В феврале 2026 года инженер опубликовал на Habr тест на обычном процессоре без видеокарты: GigaAM-v3 показал 3,3% WER, тогда как базовый Whisper, 32,6%, а ускоренный Whisper large-v3-turbo на мощной видеокарте, 7,9%. Для телефонии (звонки 8 кГц) у T-Bank есть отдельная открытая модель T-one: на записях колл-центра её WER 8,63% против 19,39% у Whisper.

Модель WER на русском Особенность
GigaAM-v3 (Sber) ~6,7% (до 3,3% на CPU) Открытая (MIT), SOTA для русского, обучена на 700 тыс. часов
T-one (T-Bank) ~8,6% на телефонии Открытая (Apache 2.0), заточена под звонки 8 кГц
Whisper large-v3 (OpenAI) ~20,8% (turbo ~7,9%) Мультиязычная, 99 языков, основа многих сервисов
Vosk (Alpha Cephei) ~13% (заявлено 6,1%) Лёгкая офлайн-модель для телефонов и Raspberry Pi

Здесь важна оговорка: заявленная точность вроде «99,8%» у коммерческих сервисов — это маркетинг на идеально чистом аудио. На реальной шумной записи WER любой модели заметно выше, поэтому ориентируйтесь не на рекламные цифры, а на независимые бенчмарки и собственный тест.

«Людей сбивает с толку, что Whisper, самое популярное имя, и они ждут от него лучшего качества на русском. А на деле модель, обученная именно на русской речи, ошибается в разы реже: на чистом аудио разница между GigaAM и ванильным Whisper огромная. Если язык русский, я всегда советую начинать с российских движков или сервисов на их основе, а Whisper брать там, где нужна мультиязычность или конкретная экосистема. И обязательно тестировать на своей записи: бенчмарк бенчмарком, а ваш звук уникален».

Кирилл Решетников, ML-инженер по распознаванию речи, Санкт-Петербург, опыт 9 лет.

Главное здесь: точнее всего русский распознают российские модели, GigaAM от Sber (WER около 6,7%) и T-one от T-Bank для телефонии; популярный Whisper на русском втрое менее точен, а рекламные «99,8%» — это цифры на идеальном аудио.

Как транскрибировать аудио в текст бесплатно

Бесплатные способы транскрибации существуют, и для разовой задачи их часто достаточно. У каждого есть ограничения, но понимая их, легко выбрать подходящий.

Самый простой вариант, браузерный сервис с речевым вводом. Например, Speechpad работает прямо в Google Chrome: он распознаёт речь с микрофона и умеет расшифровывать загруженные аудиофайлы и видео с YouTube. Это удобный бесплатный инструмент для диктовки и несложных записей, хотя диаризации (деления по спикерам) в нём нет.

Голосовой блокнот, который работает в браузере без установки и оплаты:

Второй путь, бесплатные лимиты облачных сервисов. Российский SaluteSpeech от SberDevices даёт 100 минут распознавания в месяц бесплатно, многие сервисы транскрибации, по 15-180 минут на старте. Для одного интервью или лекции этого обычно хватает, а если задача разовая, можно просто завести аккаунт ради бесплатного объёма.

Третий, и самый мощный, вариант для тех, кому важна приватность или большие объёмы, локальный запуск Whisper на своём компьютере. Модель открытая и бесплатная, единственная плата, время на установку и мощность вашего железа. Этот способ подробно разберём ниже, в разделе про Whisper.

Бесплатный способ Подходит для Ограничение
Браузерный сервис (Speechpad) Диктовки, простые записи, YouTube Нет диаризации, лучше в Chrome
Free-лимит облака (SaluteSpeech) Разовое интервью, лекция 100 минут в месяц, дальше платно
Локальный Whisper Большие объёмы, приватность Нужна установка и мощный ПК

Главное здесь: бесплатно транскрибировать реально тремя путями, браузерный Speechpad для диктовок, free-лимиты облаков (SaluteSpeech даёт 100 минут в месяц) для разовых задач и локальный Whisper для больших объёмов и приватности.

Онлайн-сервисы транскрибации: какой выбрать

Если возиться с настройками не хочется, проще загрузить файл в готовый онлайн-сервис. Их десятки, и удобнее всего делить по тому, под какой язык и задачу они заточены. Для русского языка имеет смысл смотреть в первую очередь на российские сервисы и мультиязычные платформы, которые русский поддерживают честно.

Среди мультиязычных лидеров выделяется TurboScribe. Он работает на Whisper, поддерживает 98 с лишним языков, принимает файлы до 10 часов и умеет распознавать речь по ссылке на YouTube. На бесплатном тарифе доступно 3 файла в день до 30 минут каждый, безлимитный план стоит от 10 до 20 долларов в месяц. Сервис отдаёт результат в DOCX, PDF, а также субтитрами SRT и VTT.

Универсальный сервис с поддержкой видео, YouTube и экспортом в субтитры:

Из российских сервисов удобен Speech2Text: он распознаёт речь на 90 с лишним языках, делит запись по спикерам, ставит пунктуацию и делает краткое саммари встречи, обрабатывая час аудио примерно за 10 минут. Есть бесплатный доступ, экспорт в DOCX и SRT, боты в мессенджерах, а данные обрабатываются в российском контуре, что важно по 152-ФЗ.

Российский сервис с диаризацией, саммари и обработкой в РФ:

Ещё один российский вариант, Any2Text, тоже построен на Whisper, заявляет точность до 98%, поддерживает диаризацию и больше 50 языков. Его плюс, рублёвые тарифы и оплата картами РФ: есть бесплатный лимит, а поминутная оплата без подписки стоит около 3,5 ₽ за минуту. Это удобно, когда расшифровки нужны нерегулярно и подписка невыгодна.

Российский сервис с рублёвой оплатой по минутам, без подписки:

Отдельно стоит предупредить про Otter.ai, очень популярный на Западе сервис заметок со встреч. Он отлично транскрибирует английский, но русский язык не поддерживает вовсе, поэтому для русской речи он не подойдёт, как бы ни был раскручен. Это частая ловушка: люди идут за известным брендом и получают нечитаемый результат.

При выборе любого сервиса расшифровки аудио стоит проверить три вещи. Первое, поддержку форматов и лимиты: большинство платформ принимают популярные форматы аудио (MP3, WAV, M4A, AAC, FLAC, OGG) и видео, но ограничения по длительности и размеру файла зависят от тарифа, на бесплатном это часто 15-30 минут. Второе, скорость: хороший сервис справляется с часовой записью за несколько минут и не заставляет ждать. Третье, наличие интеграций с Zoom, Telegram и CRM, если расшифровки нужны регулярно, и то, насколько сервис справляется с высокой точностью на шумном звуке. Из корпоративных российских платформ с интеграциями созвонов часто называют Teamlogs.

Главное здесь: для русского языка смотрите на мультиязычный TurboScribe (работает на Whisper, есть YouTube и субтитры) и российские Speech2Text и Any2Text (диаризация, рубли, обработка в РФ); Otter.ai при всей популярности русский не поддерживает.

Как перевести в текст видео и YouTube, сделать субтитры

Видео транскрибируется так же, как аудио: сервис извлекает звуковую дорожку и распознаёт речь. Разница в том, что для видео обычно нужны субтитры с таймкодами, а не сплошной текст. Поэтому при экспорте выбирают форматы SRT или VTT: их понимают видеоредакторы, плееры и сам YouTube.

Многие сервисы умеют брать видео прямо по ссылке на YouTube, без скачивания файла. Вы вставляете URL, сервис сам достаёт дорожку, распознаёт её и отдаёт субтитры. Это удобно, когда нужно сделать расшифровку чужого ролика для конспекта или перевести своё видео в текст для статьи. Если ролик нужно сначала скачать, поможет наш сервис скачивания видео с YouTube по ссылке. Все способы извлечь субтитры и расшифровку из видео мы собрали в отдельном гайде.

Формат Что это Когда нужен
SRT / VTT Субтитры с таймкодами Видео, YouTube, ролики в соцсетях
DOCX Документ Word Интервью, статьи, протоколы
TXT Простой текст Быстрая вставка, дальнейшая обработка
XLSX / CSV Таблица с репликами и таймкодами Анализ диалогов, разметка по спикерам

Если субтитры нужны на телефоне, отдельные приложения распознают речь прямо в видеоредакторе и накладывают подписи на ролик автоматически. А для статьи из видео удобнее сразу экспортировать текст и довести его до ума: посчитать объём поможет счётчик уникальных слов, а распознать текст с приложенных к видео слайдов или PDF, наш сервис распознавания текста с картинки и PDF.

Главное здесь: видео транскрибируется через извлечение звуковой дорожки, для роликов выбирайте субтитры SRT или VTT, многие сервисы берут видео прямо по ссылке на YouTube, а для документа подойдут DOCX или TXT.

Как перевести голосовое сообщение в текст на телефоне

Отдельная частая задача, расшифровать голосовое сообщение, не прослушивая его. Здесь всё проще, чем кажется, и часто не нужны сторонние сервисы.

В Telegram есть встроенная расшифровка голосовых и видеосообщений в текст: рядом с сообщением появляется кнопка, по которой оно превращается в читаемый текст. WhatsApp добавил похожую функцию транскрипции голосовых, она распознаёт сообщение прямо на устройстве. Оба варианта работают с русским и бесплатны.

Если встроенной функции нет или нужна расшифровка не сообщения, а целой записи, помогает сам смартфон. На Android голосовой ввод Google умеет переводить речь в текст в любом поле, а на iPhone то же делает встроенная диктовка. Для записанных файлов подойдут мобильные приложения сервисов транскрибации или их боты в Telegram, куда можно просто переслать аудио и получить текст в ответ.

Главное здесь: голосовые в Telegram и WhatsApp расшифровываются встроенной кнопкой бесплатно, для надиктовки на ходу есть голосовой ввод Google на Android и диктовка на iPhone, а записанные файлы удобно слать в Telegram-боты сервисов.

Разделение по спикерам и пунктуация: почему ломается и как починить

Две самые частые претензии к автоматической транскрибации, неверное разделение по спикерам и кривая пунктуация. Если в записи три человека, а сервис уверенно делит её на двоих, расшифровка интервью становится почти бесполезной: непонятно, кто что сказал. С пунктуацией похожая беда: иногда модель ставит знаки «по-своему», склеивая длинные фразы или дробя их не там.

Причина в том, что диаризация и расстановка знаков — это отдельные задачи поверх распознавания, и решаются они тем лучше, чем чище запись и чем больше модель про неё знает. Голоса похожего тембра, перебивающие друг друга реплики, эхо в комнате, всё это сбивает деление по спикерам. А пунктуацию сложнее всего ставить там, где речь сбивчивая, с длинными предложениями без явных пауз.

Чинится это в основном на этапе записи и выбора сервиса. Помогает вот что: записывать каждого спикера на отдельный канал или микрофон, если есть возможность; выбирать сервис с честной поддержкой диаризации (российские Speech2Text, Any2Text, Писец делают это неплохо); и закладывать время на вычитку, машинная расшифровка почти всегда требует финальной правки человеком.

«Самая частая иллюзия у новичков, что нейросеть отдаст готовый чистовик. Нет, она отдаст очень хороший черновик, и его всё равно надо вычитать: поправить имена собственные, термины, изредка пунктуацию. Но это уже не 5 часов набора с нуля, а 30-40 минут редактуры. И отдельно про спикеров: если запись с одного микрофона и люди перебивают друг друга, ни один сервис не разделит их идеально. Хотите чистую диаризацию, пишите каждого на свой канал — это экономит потом часы».

Марина Дятлова, продюсер подкастов и редактор расшифровок, Москва, опыт 8 лет.

Главное здесь: ошибки в делении по спикерам и пунктуации идут от шумной записи и наложения голосов; помогают запись каждого спикера на отдельный канал, выбор сервиса с честной диаризацией и обязательная вычитка, машина даёт отличный черновик, но не готовый чистовик.

Whisper: как запустить локально и почему он «галлюцинирует»

Whisper заслуживает отдельного разговора, потому что это и самостоятельный инструмент, и движок под капотом множества сервисов. Модель открытая и бесплатная: её можно скачать с GitHub и запустить на своём компьютере, тогда аудио не уходит ни на какие сторонние серверы. Это главный аргумент в пользу локального Whisper, полная приватность.

Для запуска есть варианты на любой уровень: от командной строки до программ с интерфейсом и ускоренной версии faster-whisper, которая работает заметно быстрее. На мощном ПК с видеокартой час записи распознаётся за минуты, на обычном процессоре, дольше, но тоже реально.

Сама модель, основа множества облачных сервисов:

У ванильного Whisper есть известная особенность, он «галлюцинирует»: на участках тишины или сильного шума выдумывает текст, которого не было. В одном медицинском исследовании 2024 года Whisper выдумывал фрагменты примерно в 1% случаев, включая несуществующие фразы и даже диагнозы, что для медицины недопустимо. На корпоративных звонках инженеры сталкивались с тем, что модель дробит фразы посреди слова и путает термины.

Лечится это обвязкой: детекцией речевой активности, чтобы модель не «слушала» тишину, дообученными на русском версиями Whisper и подсказками с нужными терминами и именами. Но для большинства бытовых задач проще взять сервис, где эта обвязка уже сделана за вас, или российскую модель, которая на русском и точнее, и стабильнее. Как установить и запустить Whisper, выбрать модель и ускорить его, мы подробно разобрали в отдельном гайде по Whisper, а чем он отличается от российских облачных сервисов, в сравнении SpeechKit, SaluteSpeech и Whisper.

Главное здесь: Whisper открыт и бесплатен, локальный запуск даёт полную приватность; но «из коробки» он галлюцинирует на тишине и шуме (выдумывает текст), поэтому ему нужна обвязка, либо берите сервис, где она уже встроена, либо российскую модель.

Можно ли загружать чувствительное аудио в облако? 152-ФЗ

Это вопрос, который часто упускают, а зря. Когда вы загружаете запись в облачный сервис транскрибации, аудио уходит на его серверы. Для записи дружеской беседы это неважно, но для переговоров, медицинских консультаций, собеседований и любых разговоров с персональными данными, уже принципиально.

С точки зрения закона голосовая запись может содержать персональные данные, а в некоторых случаях квалифицироваться как биометрия. По 152-ФЗ передача обработки таких данных стороннему сервису допустима только по договору поручения, с описанием целей и обязанностью конфиденциальности. А если аудио уходит на серверы за рубежом (как у Whisper API и многих западных сервисов), добавляется риск, связанный с трансграничной передачей данных граждан РФ.

Безопасных путей два. Первый, локальная транскрибация: Whisper или GigaAM на своём компьютере, когда запись физически не покидает периметр организации. Второй, российские облачные сервисы с обработкой в РФ, как SaluteSpeech или Yandex SpeechKit: данные остаются в российском контуре, хотя это всё равно передача оператору, под которую нужен договор.

Российский сервис распознавания с обработкой данных в РФ и в реестре отечественного ПО:

«Бизнес часто грузит записи переговоров и собеседований в первый попавшийся зарубежный сервис, не задумываясь, что это персональные данные. Если запись содержит ПД и тем более биометрию, а сервис, иностранный, вы рискуете нарушить 152-ФЗ. Простое правило: всё, что чувствительно, расшифровывайте локально или в российском сервисе с обработкой в РФ и договором поручения. Для публичного подкаста это избыточно, а для записи с клиентскими данными, обязательно».

Артём Гольцов, юрист по защите персональных данных, Екатеринбург, опыт 11 лет.

Главное здесь: голосовые записи могут содержать персональные данные и биометрию, поэтому чувствительное аудио нельзя бездумно грузить в облако; безопасно, расшифровывать локально или в российском сервисе с обработкой в РФ, а передачу данных оформлять договором поручения по 152-ФЗ.

ИИ-конспекты встреч: транскрибация прямо в созвоне

Отдельное направление, автоматическая расшифровка встреч прямо во время созвона. Вместо того чтобы записывать звонок и потом отдавать его в сервис, всё происходит на лету: сервис подключается к встрече, транскрибирует речь и в конце выдаёт готовый текст плюс краткое саммари с задачами.

В 2025 году такие функции встроили в популярные платформы. Яндекс 360 добавил ИИ-конспекты встреч в Телемост: запись обрабатывается на серверах в РФ, а на выходе вы получаете расшифровку с таймцами и саммари примерно на страницу, экономя около 10 минут на каждую встречу. У Zoom есть AI Companion, который присоединяется к встрече, транскрибирует её и собирает список задач, причём умеет работать и во встречах Microsoft Teams и Google Meet.

Для бизнеса это удобно: протокол совещания пишется сам, и не нужно отдельно расшифровывать запись. Такие ИИ-конспекты, часть более широкой волны внедрения искусственного интеллекта в бизнес. Но стоит помнить про то же 152-ФЗ: если на встрече обсуждаются персональные или коммерческие данные, важно понимать, где сервис хранит расшифровку. Российские решения с обработкой в РФ здесь, как правило, безопаснее зарубежных.

Главное здесь: ИИ-конспекты встреч (Яндекс Телемост, Zoom AI Companion) транскрибируют созвон на лету и сразу выдают саммари с задачами; это экономит время на протоколах, но для встреч с чувствительными данными важно, где хранится расшифровка.

Как выбрать сервис транскрибации под задачу

Сервисов много, и выбор зависит от того, что именно вы расшифровываете и насколько важна приватность. Удобно идти от задачи, а не от бренда.

Дерево выбора сервиса транскрибации по задаче: для разовой диктовки подойдёт бесплатный браузерный сервис, для интервью с несколькими спикерами нужен сервис с диаризацией, для конфиденциального аудио по 152-ФЗ нужна локальная модель или российский сервис, для видео и YouTube нужен экспорт в субтитры, а для интеграции в продукт через API

Главное здесь: выбирайте сервис от задачи, под русский, российские модели; для интервью, диаризация; для конфиденциального, локально или российское облако; для видео, экспорт в субтитры; и всегда закладывайте время на финальную вычитку.

5 ошибок при транскрибации

Ошибка 1: «Беру Otter.ai, он самый известный»

Что не так: Otter.ai не поддерживает русский язык вовсе, на русской записи он выдаёт бессмыслицу. Популярность за рубежом не значит пригодность для русского.

Что делать: для русской речи брать российские сервисы или мультиязычные платформы, которые честно поддерживают русский (TurboScribe, Speech2Text, Any2Text).

Ошибка 2: «Залью запись переговоров в любой облачный сервис»

Что не так: голосовая запись может содержать персональные данные и биометрию; загрузка в зарубежный сервис рискует нарушить 152-ФЗ.

Что делать: чувствительное аудио расшифровывать локально (Whisper, GigaAM на своём ПК) или в российском сервисе с обработкой в РФ и договором поручения.

Ошибка 3: «Whisper, лучший движок, ставлю его на русский»

Что не так: на русском ванильный Whisper втрое менее точен, чем российские модели, и галлюцинирует на тишине, выдумывая текст.

Что делать: для русского брать GigaAM, T-one или сервис на их основе; если нужен именно Whisper, использовать дообученную на русском версию с детекцией речи.

Ошибка 4: «Записал интервью на один микрофон, нейросеть сама разделит»

Что не так: при наложении голосов и эхе диаризация ошибается, и расшифровка интервью превращается в кашу без понимания, кто говорит.

Что делать: по возможности писать каждого спикера на отдельный канал и выбирать сервис с честной поддержкой диаризации.

Ошибка 5: «Сервис обещает 99,8% точности, вычитывать не буду»

Что не так: «99,8%» — это маркетинг на идеальном аудио; на реальной записи ошибки есть всегда, особенно в именах, терминах и пунктуации.

Что делать: относиться к машинной расшифровке как к черновику и закладывать время на вычитку, обычно это 30-40 минут на час записи.

Вывод

Перевести аудио или видео в текст сегодня, дело минут, а не часов: то, на что у фрилансера уходит 4-6 часов работы и полторы тысячи рублей за час записи, нейросеть делает почти мгновенно и за копейки. Главное, что стоит запомнить: для русского языка точнее всего работают российские модели, GigaAM от Sber и T-one от T-Bank, которые по точности обходят популярный Whisper в разы, а самый раскрученный западный сервис Otter.ai русский не поддерживает вовсе. Бесплатно расшифровать реально через браузерный Speechpad, free-лимиты облаков вроде SaluteSpeech или локальный Whisper. Для интервью и созвонов выбирайте сервис с диаризацией, для видео, с экспортом в субтитры SRT и VTT. И помните про приватность: голосовые записи с персональными данными нельзя бездумно грузить в облако, чувствительное аудио расшифровывайте локально или в российском сервисе с обработкой в РФ. А любую машинную расшифровку относите к черновику: она экономит часы, но финальная вычитка всё равно за человеком. А для смежных задач со звуком у нас есть отдельные разборы: как отредактировать аудио онлайн, как изменить голос войс-чейнджером, как разделить вокал и инструментал и как убрать шум из записи и микрофона.

Источники

🧠 Модели и точность распознавания

  • Habr, SberDevices, 04.12.2025, GigaAM-v3: открытая SOTA-модель распознавания речи на русском (WER 6,7% против 20,8% у Whisper)
  • Habr, 21.02.2026, независимое сравнение GigaAM, Whisper и Vosk на CPU (WER с 33% до 3,3%)
  • Habr, T-Bank, 22.07.2025, открытая потоковая модель T-one для телефонии
  • github.com/salute-developers/GigaAM, репозиторий и лицензия MIT
  • huggingface.co, карточка модели Whisper large-v3

🛠 Сервисы и тарифы

  • openai.com, цены Whisper API и gpt-4o-transcribe
  • developers.sber.ru, 05.03.2026, тарифы SaluteSpeech (100 минут в месяц бесплатно)
  • aistudio.yandex.ru, тарификация Yandex SpeechKit
  • turboscribe.ai, тарифы и лимиты TurboScribe

📰 Рынок, практика и приватность

  • MarketsandMarkets, объём рынка распознавания речи (9,66 млрд в 2025, 23,11 млрд к 2030)
  • Habr, 28.10.2024, исследование о галлюцинациях Whisper в медрасшифровках
  • kwork.ru, цены на ручную расшифровку у фрилансеров
  • Computerra, ИИ-конспекты встреч в Яндекс Телемосте
  • Pikabu, 17.02.2025, сравнение 6 российских сервисов транскрибации

Часто задаваемые вопросы

Что такое транскрибация аудио в текст простыми словами?

Транскрибация — это перевод устной речи из аудио- или видеозаписи в текст. Слова «транскрибация» и «расшифровка» в рунете означают одно и то же. Раньше это делал человек на слух, теперь, чаще всего, нейросеть распознавания речи (технология speech-to-text): она анализирует звук, превращает его в слова, расставляет знаки препинания и при необходимости делит текст по спикерам. На выходе получается готовый документ, субтитры или простой текст, который можно искать, редактировать и цитировать.

Как транскрибировать аудио в текст бесплатно?

Есть три бесплатных пути. Первый, браузерный сервис вроде Speechpad: он работает в Google Chrome, распознаёт речь с микрофона и расшифровывает загруженные файлы и видео с YouTube. Второй, бесплатные лимиты облачных сервисов: например, SaluteSpeech от SberDevices даёт 100 минут распознавания в месяц, многие сервисы, по 15-180 минут на старте. Третий, локальный запуск открытой модели Whisper на своём компьютере: она бесплатна, а единственная плата, время на установку и мощность вашего железа. Для разовой задачи обычно хватает первых двух способов.

Какая нейросеть точнее всего распознаёт русскую речь?

На русском языке точнее всего работают российские модели, обученные именно на русской речи. GigaAM-v3 от Sber (открытая, под лицензией MIT) показывает средний WER около 6,7% против 20,8% у популярного Whisper large-v3, то есть ошибается примерно втрое реже. Для телефонии и звонков 8 кГц хороша открытая модель T-one от T-Bank. Whisper остаётся сильной мультиязычной моделью и основой многих сервисов, но именно на русском он заметно уступает российским движкам. Рекламные «99,8% точности» — это цифры на идеально чистом аудио, на реальной записи ошибок всегда больше.

Чем заменить Otter.ai для русского языка?

Otter.ai не поддерживает русский язык (только английский, испанский и французский), поэтому для русской речи он не подходит, несмотря на популярность. Вместо него берите мультиязычный TurboScribe (работает на Whisper, поддерживает русский, видео и YouTube) или российские сервисы Speech2Text и Any2Text, которые умеют диаризацию, ставят пунктуацию и обрабатывают данные в российском контуре. Для встреч и созвонов есть ИИ-конспекты в Яндекс Телемосте, которые транскрибируют разговор и сразу делают саммари.

Как сделать субтитры к видео автоматически?

Загрузите видео в сервис транскрибации или вставьте ссылку на YouTube, многие сервисы извлекают звуковую дорожку сами. При экспорте выберите формат субтитров SRT или VTT, их понимают видеоредакторы, плееры и YouTube. Сервис распознает речь, расставит таймкоды и отдаст файл субтитров, который останется подгрузить к ролику. TurboScribe, Speech2Text и подобные платформы делают это в пару кликов. Если субтитры нужны прямо на телефоне, отдельные приложения распознают речь в видеоредакторе и накладывают подписи на ролик автоматически.

Сколько стоит транскрибация минуты или часа аудио?

Зависит от способа. У фрилансеров ручная расшифровка стоит примерно 15-20 ₽ за минуту аудио у опытных исполнителей, то есть час интервью обходится в 1500-1800 ₽. Автоматическая транскрибация в разы дешевле: Whisper API стоит около $0,006 за минуту, российский Any2Text, примерно 3,5 ₽ за минуту без подписки, SaluteSpeech, 1200 ₽ за 1000 минут (около 72 ₽ за час). А в пределах бесплатных лимитов (100 минут в месяц у SaluteSpeech, 3 файла в день у TurboScribe) расшифровать можно и вовсе бесплатно.

Как разделить аудио по спикерам при транскрибации?

Это называется диаризация, разделение текста по говорящим. Её поддерживают не все сервисы: из удобных, российские Speech2Text, Any2Text и Писец, а также TurboScribe. Качество диаризации сильно зависит от записи: если голоса похожи, участники перебивают друг друга или есть эхо, даже хороший сервис ошибается. Лучший результат даёт запись каждого спикера на отдельный канал или микрофон. Если такой возможности не было, заложите время на ручную правку, кто есть кто в расшифровке часто приходится поправлять вручную.

Можно ли загружать конфиденциальное аудио в облачный сервис?

С осторожностью. Голосовая запись может содержать персональные данные, а иногда квалифицироваться как биометрия. По 152-ФЗ передача обработки таких данных стороннему сервису допустима только по договору поручения, а загрузка на зарубежные серверы (как у Whisper API и многих западных сервисов) добавляет риск трансграничной передачи. Для переговоров, медицинских записей и собеседований безопаснее расшифровывать локально (Whisper или GigaAM на своём ПК, когда аудио не покидает периметр) или использовать российский сервис с обработкой данных в РФ, как SaluteSpeech или Yandex SpeechKit.

Почему Whisper выдумывает текст и плохо ставит запятые?

У открытого Whisper есть особенность: на участках тишины или сильного шума он «галлюцинирует», выдумывает слова и фразы, которых не было. В медицинском исследовании 2024 года такие выдумки встречались примерно в 1% случаев. С пунктуацией он тоже бывает своеобразен: ставит знаки по-своему и склеивает длинные фразы. Лечится это обвязкой, детекцией речевой активности (чтобы модель не «слушала» тишину), дообученными на русском версиями и подсказками с терминами. Но для большинства задач проще взять сервис, где обвязка уже сделана, или российскую модель, которая на русском стабильнее.

Как перевести голосовое сообщение в текст на телефоне?

Проще всего встроенными средствами мессенджера. В Telegram рядом с голосовым и видеосообщением есть кнопка расшифровки в текст. WhatsApp добавил похожую функцию транскрипции голосовых, распознавание идёт прямо на устройстве. Оба варианта работают с русским и бесплатны. Если нужно расшифровать не сообщение, а записанный файл, перешлите его в Telegram-бот сервиса транскрибации или загрузите в мобильное приложение. А для надиктовки текста на ходу подойдёт голосовой ввод Google на Android и встроенная диктовка на iPhone.

Сервисы из этой статьи

Логотип Speechpad

Speechpad

Free

Speechpad — бесплатный голосовой блокнот для речевого ввода в браузере Chrome через Google Speech API. Транскрибация HTML5-аудио/видео и YouTube, расширение для ввода голосом в любое поле, приложения для Android и iOS.

ЦенаБесплатный тариф
Логотип TurboScribe

TurboScribe

Free

AI-транскрибация на базе Whisper в 98+ языках с переводом в 134+ языков. Файлы до 10 часов и 5 GB, до 50 файлов одновременно на Unlimited-тарифе. Speaker Recognition, audio restoration и экспорт в PDF, DOCX, SRT, VTT, CSV, TXT.

ЦенаБесплатный тариф
Логотип Speech2Text

Speech2Text

Free

Российский сервис распознавания речи на 90+ языках с разделением на спикеров и саммари встреч. 1 час аудио — за 10 минут, экспорт в DOCX/SRT, Tg- и MAX-боты, 152-ФЗ, в реестре Минцифры РФ.

ЦенаБесплатный тариф
Логотип Any2Text

Any2Text

Free

Российский сервис транскрибации аудио и видео на Whisper. До 98% точности, 50+ языков, 100+ форматов, диаризация спикеров, AI-обработка текста и AI-переводы. Оплата картами РФ, рублёвые тарифы.

ЦенаБесплатный тариф
Логотип Whisper (OpenAI)

Whisper (OpenAI)

Free

Open-source модель автоматического распознавания речи (ASR) от OpenAI на архитектуре Transformer encoder-decoder. Обучена на 680 000 часов многоязычных данных, поддерживает транскрипцию и перевод на английский. Доступна как через API OpenAI, так и для self-hosted-запуска.

ЦенаБесплатный тариф
Логотип Yandex SpeechKit

Yandex SpeechKit

Модуль AI Speech в Yandex AI Studio: распознавание и синтез речи, Realtime API голосовых агентов с откликом < 1 секунды, LLM-обработка результатов, Brand Voice (Lite + Premium) и SpeechKit Hybrid для on-premises. ООО «Яндекс.Облако», в реестре российского ПО.

ЦенаПо запросу

Похожие статьи

Whisper для транскрибации: установка, точность и цены | ToolFox

Whisper от OpenAI распознаёт речь бесплатно и офлайн, но новичков пугают установка, выбор модели и галлюцинации на тишине. Разбираем по шагам: как запустить, какая модель нужна, насколько точно на русском и сколько стоит облачный API.

whisperтранскрибация
1 июня 2026 г.21 мин

Видео в текст: как извлечь субтитры и расшифровку | ToolFox

Расшифровать видео-лекцию, вытащить субтитры из ролика или сделать подписи для Reels можно бесплатно и за минуты. Разбираем все способы: встроенную расшифровку YouTube, онлайн-сервисы по ссылке, видеоредакторы и Whisper, с нашим тестом и реальными отзывами.

видео в текстсубтитры
1 июня 2026 г.16 мин

Распознавание речи: SpeechKit, SaluteSpeech и Whisper | ToolFox

Yandex SpeechKit, SaluteSpeech от Сбера и Whisper от OpenAI распознают русскую речь по-разному, и одного победителя нет: всё решают чистота аудио, скорость, цена и требования к данным. Сравниваем три сервиса по реальным бенчмаркам, ценам за час и 152-ФЗ.

распознавание речиwhisper
1 июня 2026 г.14 мин

Все статьи блога

Всего 774 статей в блоге ToolFox