Час записанного интервью вручную расшифровывают 4-6 часов, а биржи фриланса берут по 15-20 ₽ за минуту аудио. Нейросети делают ту же работу за минуты и почти бесплатно, но у одних беда с русскими ударениями и пунктуацией, другие путают спикеров, а самый известный западный сервис вообще не знает русского. Разберём, как работает распознавание речи, какая модель точнее всего понимает русский язык и какие сервисы реально подходят для интервью, лекций, видео и созвонов.
Ещё несколько лет назад автоматическая расшифровка выдавала нечитаемое полотно слов без знаков препинания, и проще было набрать текст вручную. Сегодня нейросети распознают русскую речь с точностью выше 90%, расставляют пунктуацию, делят разговор по спикерам и сразу отдают субтитры. Этот материал, часть нашей серии разборов нейросетей для работы со звуком и текстом, и здесь мы сфокусируемся на обратной задаче, переводе аудио и видео в текст.
Что такое транскрибация и чем она отличается от расшифровки
Транскрибация — это перевод устной речи из аудио- или видеозаписи в текст. В рунете слова «транскрибация» и «расшифровка» используются как синонимы: и на биржах фриланса, и в технических статьях ими называют одно и то же, превращение звука в читаемый текст. Раньше это делал человек на слух, теперь, чаще всего, нейросеть.
За автоматической транскрибацией стоит технология распознавания речи, по-английски speech-to-text (STT) или automatic speech recognition (ASR). Модель анализирует звуковую волну, разбивает её на фрагменты, сопоставляет с тем, как звучат слова, и собирает текст. Современные движки делают больше, чем просто набор слов: они расставляют знаки препинания, делят запись на абзацы и реплики, добавляют таймкоды.
Чтобы разобраться в теме, полезно знать несколько терминов, которые встретятся в любом сервисе:
- Диаризация (разделение по спикерам), определение, кто из участников разговора что сказал. Критично для интервью и созвонов: без неё расшифровка превращается в монолитный текст без понимания, где чья реплика.
- Таймкоды (тайм-коды, временные метки), привязка реплик к моменту записи, нужна для субтитров и быстрой ручной правки.
- Субтитры SRT и VTT, текстовые форматы с таймкодами, которые понимают видеоплееры и YouTube. Почти все сервисы умеют экспортировать расшифровку видео сразу в субтитры.
- WER (word error rate), метрика точности: доля ошибочных слов относительно эталона. Чем ниже WER, тем точнее распознавание. Именно по WER модели сравнивают между собой.
Главное практическое отличие касается не терминов, а качества: дешёвый или старый движок отдаёт «полотно» слов, которое всё равно придётся вычитывать, а хорошая модель, готовый текст, где правок минимум. Поэтому выбор сервиса — это в первую очередь выбор модели распознавания под ваш язык и тип записи.
Главное здесь: транскрибация и расшифровка — это одно и то же, перевод речи в текст; за ней стоит распознавание речи (STT/ASR), а ключевые понятия, диаризация (деление по спикерам), таймкоды, субтитры SRT/VTT и метрика точности WER.
Как работает автоматическое распознавание речи
Процесс автоматической транскрибации проходит несколько этапов, и понимание их помогает объяснить, почему одни аудиозаписи распознаются идеально, а другие, с ошибками. Сначала сервис обрабатывает звук: нормализует громкость, по возможности подавляет шумы и определяет, где в записи речь, а где пауза или фоновый гул. Этот шаг называют детекцией речевой активности, и от него сильно зависит итог.
Дальше за дело берётся нейросеть-распознаватель. Она обучена на сотнях тысяч часов речи и умеет сопоставлять звук с наиболее вероятной последовательностью слов с учётом контекста. Современные модели понимают, что после одних слов вероятнее идут другие, поэтому реже путают похожие по звучанию варианты. На выходе получается «сырой» текст, поток распознанных слов.
Затем включается постобработка: отдельная модель расставляет знаки препинания, разбивает текст на предложения и абзацы, а при поддержке диаризации помечает, кто говорит. Готовый результат сервис отдаёт в нужном формате: обычный текст, документ DOCX, таблицу или субтитры с таймкодами.
Качество на каждом этапе зависит от исходной записи. Чистый звук с одним диктором распознаётся почти без ошибок, а шумная запись с телефона, где говорят наперебой, даёт куда более высокий WER. Поэтому хорошая запись, половина успеха, и об этом отдельно поговорим ниже.
Главное здесь: транскрибация идёт в три шага, предобработка и детекция речи, распознавание нейросетью, постобработка с пунктуацией и диаризацией; качество итога напрямую зависит от чистоты исходной записи.
Кому и зачем нужно переводить аудио в текст
Спрос на транскрибацию вырос вместе с тем, как много мы стали записывать. Созвоны, лекции, подкасты, интервью, голосовые сообщения, всё это удобно слушать, но неудобно искать и цитировать. Текст решает проблему: по нему можно искать, его можно отредактировать, переслать, превратить в статью.
Кому это нужно чаще всего:
- Журналистам и исследователям, расшифровать записанное интервью, чтобы достать из него цитаты и факты, не переслушивая часами.
- Студентам и преподавателям, перевести запись лекции или вебинара в конспект, по которому удобно готовиться.
- Бизнесу, сохранить расшифровку совещаний и созвонов с клиентами, чтобы зафиксировать договорённости и не потерять детали.
- Контент-мейкерам, превратить подкаст или видео в текст для статьи, поста или субтитров. Готовую расшифровку легко довести до публикации с помощью нейросетей для копирайтинга или собрать из неё серию постов для соцсетей.
- Юристам и кадровикам, оформить запись разговора или собеседования в текстовый протокол.
Объём рынка распознавания речи это подтверждает: по оценке MarketsandMarkets, мировой сегмент speech and voice recognition вырос с 8,49 млрд долларов в 2024 году до 9,66 млрд в 2025-м и, по прогнозу, достигнет 23,11 млрд к 2030 году при среднегодовом росте около 19%. Драйвер очевиден: голосового контента всё больше, а время на ручную обработку никто не хочет тратить.
Главное здесь: транскрибация нужна всем, кто работает с записанной речью, журналистам, студентам, бизнесу, контент-мейкерам и юристам; рынок распознавания речи растёт почти на 19% в год именно потому, что голосового контента становится всё больше.
Сколько времени и денег съедает ручная расшифровка
Чтобы понять ценность автоматики, полезно посмотреть, во что обходится ручная транскрибация. Опытные расшифровщики оценивают труд по соотношению времени: на один час качественной записи уходит, как правило, 4-6 часов работы. Если звук приглушённый, голоса перекрывают друг друга или много терминов, соотношение доходит до 10 часов работы на час аудио и больше.
В деньгах это выглядит так. На биржах фриланса расшифровка стоит примерно 15-20 ₽ за минуту аудио у опытных исполнителей, то есть час интервью обходится в 1500-1800 ₽, а двухчасовой вебинар, в 6-8 тысяч рублей. Новички берут дешевле, от 8-10 ₽ за минуту, но и качество, и сроки у них менее предсказуемы.
Теперь сравните это с автоматикой: нейросеть распознаёт тот же час записи за несколько минут, а стоит это либо бесплатно (в пределах лимитов), либо несколько рублей. Даже с учётом того, что машинную расшифровку придётся вычитать и поправить, экономия времени и денег получается кратной. Именно поэтому ручную транскрибацию сегодня заказывают в основном там, где нужна юридическая точность каждого слова или работа с очень плохим звуком.
Главное здесь: ручная расшифровка часа аудио — это 4-6 часов работы и 1500-1800 ₽ у фрилансера; нейросеть делает то же за минуты и за копейки, поэтому ручной труд остаётся в основном для записей с юридической точностью или очень плохим звуком.
Какая нейросеть точнее всего распознаёт русскую речь?
Это главный вопрос, и ответ многих удивляет: самый известный движок, Whisper от OpenAI, на русском далеко не лучший. Whisper, безусловно, хорош как мультиязычная модель и лежит в основе десятков сервисов, но обучен он на 680 тысячах часов записей на 99 языках, и русского в этом объёме сравнительно немного.
Российские команды обучили модели именно на русской речи, и результат говорит сам за себя. В декабре 2025 года Sber выложил в открытый доступ GigaAM-v3, модель распознавания, обученную на 700 тысячах часов аудио под лицензией MIT. По данным разработчиков, её средний WER на русском составляет 6,7% против 20,8% у Whisper large-v3, то есть ошибок примерно втрое меньше.
6,7% против 20,8%
таков средний WER (доля ошибочных слов) у российской модели GigaAM-v3 и у популярного Whisper large-v3 на русской речи. Точнее всего русский распознают модели, обученные именно на русском, а не самый раскрученный мультиязычный движок.
Независимая проверка это подтверждает. В феврале 2026 года инженер опубликовал на Habr тест на обычном процессоре без видеокарты: GigaAM-v3 показал 3,3% WER, тогда как базовый Whisper, 32,6%, а ускоренный Whisper large-v3-turbo на мощной видеокарте, 7,9%. Для телефонии (звонки 8 кГц) у T-Bank есть отдельная открытая модель T-one: на записях колл-центра её WER 8,63% против 19,39% у Whisper.
| Модель | WER на русском | Особенность |
|---|---|---|
| GigaAM-v3 (Sber) | ~6,7% (до 3,3% на CPU) | Открытая (MIT), SOTA для русского, обучена на 700 тыс. часов |
| T-one (T-Bank) | ~8,6% на телефонии | Открытая (Apache 2.0), заточена под звонки 8 кГц |
| Whisper large-v3 (OpenAI) | ~20,8% (turbo ~7,9%) | Мультиязычная, 99 языков, основа многих сервисов |
| Vosk (Alpha Cephei) | ~13% (заявлено 6,1%) | Лёгкая офлайн-модель для телефонов и Raspberry Pi |
Здесь важна оговорка: заявленная точность вроде «99,8%» у коммерческих сервисов — это маркетинг на идеально чистом аудио. На реальной шумной записи WER любой модели заметно выше, поэтому ориентируйтесь не на рекламные цифры, а на независимые бенчмарки и собственный тест.
«Людей сбивает с толку, что Whisper, самое популярное имя, и они ждут от него лучшего качества на русском. А на деле модель, обученная именно на русской речи, ошибается в разы реже: на чистом аудио разница между GigaAM и ванильным Whisper огромная. Если язык русский, я всегда советую начинать с российских движков или сервисов на их основе, а Whisper брать там, где нужна мультиязычность или конкретная экосистема. И обязательно тестировать на своей записи: бенчмарк бенчмарком, а ваш звук уникален».
— Кирилл Решетников, ML-инженер по распознаванию речи, Санкт-Петербург, опыт 9 лет.
Главное здесь: точнее всего русский распознают российские модели, GigaAM от Sber (WER около 6,7%) и T-one от T-Bank для телефонии; популярный Whisper на русском втрое менее точен, а рекламные «99,8%» — это цифры на идеальном аудио.
Как транскрибировать аудио в текст бесплатно
Бесплатные способы транскрибации существуют, и для разовой задачи их часто достаточно. У каждого есть ограничения, но понимая их, легко выбрать подходящий.
Самый простой вариант, браузерный сервис с речевым вводом. Например, Speechpad работает прямо в Google Chrome: он распознаёт речь с микрофона и умеет расшифровывать загруженные аудиофайлы и видео с YouTube. Это удобный бесплатный инструмент для диктовки и несложных записей, хотя диаризации (деления по спикерам) в нём нет.
Голосовой блокнот, который работает в браузере без установки и оплаты:
Второй путь, бесплатные лимиты облачных сервисов. Российский SaluteSpeech от SberDevices даёт 100 минут распознавания в месяц бесплатно, многие сервисы транскрибации, по 15-180 минут на старте. Для одного интервью или лекции этого обычно хватает, а если задача разовая, можно просто завести аккаунт ради бесплатного объёма.
Третий, и самый мощный, вариант для тех, кому важна приватность или большие объёмы, локальный запуск Whisper на своём компьютере. Модель открытая и бесплатная, единственная плата, время на установку и мощность вашего железа. Этот способ подробно разберём ниже, в разделе про Whisper.
| Бесплатный способ | Подходит для | Ограничение |
|---|---|---|
| Браузерный сервис (Speechpad) | Диктовки, простые записи, YouTube | Нет диаризации, лучше в Chrome |
| Free-лимит облака (SaluteSpeech) | Разовое интервью, лекция | 100 минут в месяц, дальше платно |
| Локальный Whisper | Большие объёмы, приватность | Нужна установка и мощный ПК |
Главное здесь: бесплатно транскрибировать реально тремя путями, браузерный Speechpad для диктовок, free-лимиты облаков (SaluteSpeech даёт 100 минут в месяц) для разовых задач и локальный Whisper для больших объёмов и приватности.
Онлайн-сервисы транскрибации: какой выбрать
Если возиться с настройками не хочется, проще загрузить файл в готовый онлайн-сервис. Их десятки, и удобнее всего делить по тому, под какой язык и задачу они заточены. Для русского языка имеет смысл смотреть в первую очередь на российские сервисы и мультиязычные платформы, которые русский поддерживают честно.
Среди мультиязычных лидеров выделяется TurboScribe. Он работает на Whisper, поддерживает 98 с лишним языков, принимает файлы до 10 часов и умеет распознавать речь по ссылке на YouTube. На бесплатном тарифе доступно 3 файла в день до 30 минут каждый, безлимитный план стоит от 10 до 20 долларов в месяц. Сервис отдаёт результат в DOCX, PDF, а также субтитрами SRT и VTT.
Универсальный сервис с поддержкой видео, YouTube и экспортом в субтитры:
Из российских сервисов удобен Speech2Text: он распознаёт речь на 90 с лишним языках, делит запись по спикерам, ставит пунктуацию и делает краткое саммари встречи, обрабатывая час аудио примерно за 10 минут. Есть бесплатный доступ, экспорт в DOCX и SRT, боты в мессенджерах, а данные обрабатываются в российском контуре, что важно по 152-ФЗ.
Российский сервис с диаризацией, саммари и обработкой в РФ:
Ещё один российский вариант, Any2Text, тоже построен на Whisper, заявляет точность до 98%, поддерживает диаризацию и больше 50 языков. Его плюс, рублёвые тарифы и оплата картами РФ: есть бесплатный лимит, а поминутная оплата без подписки стоит около 3,5 ₽ за минуту. Это удобно, когда расшифровки нужны нерегулярно и подписка невыгодна.
Российский сервис с рублёвой оплатой по минутам, без подписки:
Отдельно стоит предупредить про Otter.ai, очень популярный на Западе сервис заметок со встреч. Он отлично транскрибирует английский, но русский язык не поддерживает вовсе, поэтому для русской речи он не подойдёт, как бы ни был раскручен. Это частая ловушка: люди идут за известным брендом и получают нечитаемый результат.
При выборе любого сервиса расшифровки аудио стоит проверить три вещи. Первое, поддержку форматов и лимиты: большинство платформ принимают популярные форматы аудио (MP3, WAV, M4A, AAC, FLAC, OGG) и видео, но ограничения по длительности и размеру файла зависят от тарифа, на бесплатном это часто 15-30 минут. Второе, скорость: хороший сервис справляется с часовой записью за несколько минут и не заставляет ждать. Третье, наличие интеграций с Zoom, Telegram и CRM, если расшифровки нужны регулярно, и то, насколько сервис справляется с высокой точностью на шумном звуке. Из корпоративных российских платформ с интеграциями созвонов часто называют Teamlogs.
Главное здесь: для русского языка смотрите на мультиязычный TurboScribe (работает на Whisper, есть YouTube и субтитры) и российские Speech2Text и Any2Text (диаризация, рубли, обработка в РФ); Otter.ai при всей популярности русский не поддерживает.
Как перевести в текст видео и YouTube, сделать субтитры
Видео транскрибируется так же, как аудио: сервис извлекает звуковую дорожку и распознаёт речь. Разница в том, что для видео обычно нужны субтитры с таймкодами, а не сплошной текст. Поэтому при экспорте выбирают форматы SRT или VTT: их понимают видеоредакторы, плееры и сам YouTube.
Многие сервисы умеют брать видео прямо по ссылке на YouTube, без скачивания файла. Вы вставляете URL, сервис сам достаёт дорожку, распознаёт её и отдаёт субтитры. Это удобно, когда нужно сделать расшифровку чужого ролика для конспекта или перевести своё видео в текст для статьи. Если ролик нужно сначала скачать, поможет наш сервис скачивания видео с YouTube по ссылке. Все способы извлечь субтитры и расшифровку из видео мы собрали в отдельном гайде.
| Формат | Что это | Когда нужен |
|---|---|---|
| SRT / VTT | Субтитры с таймкодами | Видео, YouTube, ролики в соцсетях |
| DOCX | Документ Word | Интервью, статьи, протоколы |
| TXT | Простой текст | Быстрая вставка, дальнейшая обработка |
| XLSX / CSV | Таблица с репликами и таймкодами | Анализ диалогов, разметка по спикерам |
Если субтитры нужны на телефоне, отдельные приложения распознают речь прямо в видеоредакторе и накладывают подписи на ролик автоматически. А для статьи из видео удобнее сразу экспортировать текст и довести его до ума: посчитать объём поможет счётчик уникальных слов, а распознать текст с приложенных к видео слайдов или PDF, наш сервис распознавания текста с картинки и PDF.
Главное здесь: видео транскрибируется через извлечение звуковой дорожки, для роликов выбирайте субтитры SRT или VTT, многие сервисы берут видео прямо по ссылке на YouTube, а для документа подойдут DOCX или TXT.
Как перевести голосовое сообщение в текст на телефоне
Отдельная частая задача, расшифровать голосовое сообщение, не прослушивая его. Здесь всё проще, чем кажется, и часто не нужны сторонние сервисы.
В Telegram есть встроенная расшифровка голосовых и видеосообщений в текст: рядом с сообщением появляется кнопка, по которой оно превращается в читаемый текст. WhatsApp добавил похожую функцию транскрипции голосовых, она распознаёт сообщение прямо на устройстве. Оба варианта работают с русским и бесплатны.
Если встроенной функции нет или нужна расшифровка не сообщения, а целой записи, помогает сам смартфон. На Android голосовой ввод Google умеет переводить речь в текст в любом поле, а на iPhone то же делает встроенная диктовка. Для записанных файлов подойдут мобильные приложения сервисов транскрибации или их боты в Telegram, куда можно просто переслать аудио и получить текст в ответ.
Главное здесь: голосовые в Telegram и WhatsApp расшифровываются встроенной кнопкой бесплатно, для надиктовки на ходу есть голосовой ввод Google на Android и диктовка на iPhone, а записанные файлы удобно слать в Telegram-боты сервисов.
Разделение по спикерам и пунктуация: почему ломается и как починить
Две самые частые претензии к автоматической транскрибации, неверное разделение по спикерам и кривая пунктуация. Если в записи три человека, а сервис уверенно делит её на двоих, расшифровка интервью становится почти бесполезной: непонятно, кто что сказал. С пунктуацией похожая беда: иногда модель ставит знаки «по-своему», склеивая длинные фразы или дробя их не там.
Причина в том, что диаризация и расстановка знаков — это отдельные задачи поверх распознавания, и решаются они тем лучше, чем чище запись и чем больше модель про неё знает. Голоса похожего тембра, перебивающие друг друга реплики, эхо в комнате, всё это сбивает деление по спикерам. А пунктуацию сложнее всего ставить там, где речь сбивчивая, с длинными предложениями без явных пауз.
Чинится это в основном на этапе записи и выбора сервиса. Помогает вот что: записывать каждого спикера на отдельный канал или микрофон, если есть возможность; выбирать сервис с честной поддержкой диаризации (российские Speech2Text, Any2Text, Писец делают это неплохо); и закладывать время на вычитку, машинная расшифровка почти всегда требует финальной правки человеком.
«Самая частая иллюзия у новичков, что нейросеть отдаст готовый чистовик. Нет, она отдаст очень хороший черновик, и его всё равно надо вычитать: поправить имена собственные, термины, изредка пунктуацию. Но это уже не 5 часов набора с нуля, а 30-40 минут редактуры. И отдельно про спикеров: если запись с одного микрофона и люди перебивают друг друга, ни один сервис не разделит их идеально. Хотите чистую диаризацию, пишите каждого на свой канал — это экономит потом часы».
— Марина Дятлова, продюсер подкастов и редактор расшифровок, Москва, опыт 8 лет.
Главное здесь: ошибки в делении по спикерам и пунктуации идут от шумной записи и наложения голосов; помогают запись каждого спикера на отдельный канал, выбор сервиса с честной диаризацией и обязательная вычитка, машина даёт отличный черновик, но не готовый чистовик.
Whisper: как запустить локально и почему он «галлюцинирует»
Whisper заслуживает отдельного разговора, потому что это и самостоятельный инструмент, и движок под капотом множества сервисов. Модель открытая и бесплатная: её можно скачать с GitHub и запустить на своём компьютере, тогда аудио не уходит ни на какие сторонние серверы. Это главный аргумент в пользу локального Whisper, полная приватность.
Для запуска есть варианты на любой уровень: от командной строки до программ с интерфейсом и ускоренной версии faster-whisper, которая работает заметно быстрее. На мощном ПК с видеокартой час записи распознаётся за минуты, на обычном процессоре, дольше, но тоже реально.
Сама модель, основа множества облачных сервисов:
У ванильного Whisper есть известная особенность, он «галлюцинирует»: на участках тишины или сильного шума выдумывает текст, которого не было. В одном медицинском исследовании 2024 года Whisper выдумывал фрагменты примерно в 1% случаев, включая несуществующие фразы и даже диагнозы, что для медицины недопустимо. На корпоративных звонках инженеры сталкивались с тем, что модель дробит фразы посреди слова и путает термины.
Лечится это обвязкой: детекцией речевой активности, чтобы модель не «слушала» тишину, дообученными на русском версиями Whisper и подсказками с нужными терминами и именами. Но для большинства бытовых задач проще взять сервис, где эта обвязка уже сделана за вас, или российскую модель, которая на русском и точнее, и стабильнее. Как установить и запустить Whisper, выбрать модель и ускорить его, мы подробно разобрали в отдельном гайде по Whisper, а чем он отличается от российских облачных сервисов, в сравнении SpeechKit, SaluteSpeech и Whisper.
Главное здесь: Whisper открыт и бесплатен, локальный запуск даёт полную приватность; но «из коробки» он галлюцинирует на тишине и шуме (выдумывает текст), поэтому ему нужна обвязка, либо берите сервис, где она уже встроена, либо российскую модель.
Можно ли загружать чувствительное аудио в облако? 152-ФЗ
Это вопрос, который часто упускают, а зря. Когда вы загружаете запись в облачный сервис транскрибации, аудио уходит на его серверы. Для записи дружеской беседы это неважно, но для переговоров, медицинских консультаций, собеседований и любых разговоров с персональными данными, уже принципиально.
С точки зрения закона голосовая запись может содержать персональные данные, а в некоторых случаях квалифицироваться как биометрия. По 152-ФЗ передача обработки таких данных стороннему сервису допустима только по договору поручения, с описанием целей и обязанностью конфиденциальности. А если аудио уходит на серверы за рубежом (как у Whisper API и многих западных сервисов), добавляется риск, связанный с трансграничной передачей данных граждан РФ.
Безопасных путей два. Первый, локальная транскрибация: Whisper или GigaAM на своём компьютере, когда запись физически не покидает периметр организации. Второй, российские облачные сервисы с обработкой в РФ, как SaluteSpeech или Yandex SpeechKit: данные остаются в российском контуре, хотя это всё равно передача оператору, под которую нужен договор.
Российский сервис распознавания с обработкой данных в РФ и в реестре отечественного ПО:
«Бизнес часто грузит записи переговоров и собеседований в первый попавшийся зарубежный сервис, не задумываясь, что это персональные данные. Если запись содержит ПД и тем более биометрию, а сервис, иностранный, вы рискуете нарушить 152-ФЗ. Простое правило: всё, что чувствительно, расшифровывайте локально или в российском сервисе с обработкой в РФ и договором поручения. Для публичного подкаста это избыточно, а для записи с клиентскими данными, обязательно».
— Артём Гольцов, юрист по защите персональных данных, Екатеринбург, опыт 11 лет.
Главное здесь: голосовые записи могут содержать персональные данные и биометрию, поэтому чувствительное аудио нельзя бездумно грузить в облако; безопасно, расшифровывать локально или в российском сервисе с обработкой в РФ, а передачу данных оформлять договором поручения по 152-ФЗ.
ИИ-конспекты встреч: транскрибация прямо в созвоне
Отдельное направление, автоматическая расшифровка встреч прямо во время созвона. Вместо того чтобы записывать звонок и потом отдавать его в сервис, всё происходит на лету: сервис подключается к встрече, транскрибирует речь и в конце выдаёт готовый текст плюс краткое саммари с задачами.
В 2025 году такие функции встроили в популярные платформы. Яндекс 360 добавил ИИ-конспекты встреч в Телемост: запись обрабатывается на серверах в РФ, а на выходе вы получаете расшифровку с таймцами и саммари примерно на страницу, экономя около 10 минут на каждую встречу. У Zoom есть AI Companion, который присоединяется к встрече, транскрибирует её и собирает список задач, причём умеет работать и во встречах Microsoft Teams и Google Meet.
Для бизнеса это удобно: протокол совещания пишется сам, и не нужно отдельно расшифровывать запись. Такие ИИ-конспекты, часть более широкой волны внедрения искусственного интеллекта в бизнес. Но стоит помнить про то же 152-ФЗ: если на встрече обсуждаются персональные или коммерческие данные, важно понимать, где сервис хранит расшифровку. Российские решения с обработкой в РФ здесь, как правило, безопаснее зарубежных.
Главное здесь: ИИ-конспекты встреч (Яндекс Телемост, Zoom AI Companion) транскрибируют созвон на лету и сразу выдают саммари с задачами; это экономит время на протоколах, но для встреч с чувствительными данными важно, где хранится расшифровка.
Как выбрать сервис транскрибации под задачу
Сервисов много, и выбор зависит от того, что именно вы расшифровываете и насколько важна приватность. Удобно идти от задачи, а не от бренда.
Главное здесь: выбирайте сервис от задачи, под русский, российские модели; для интервью, диаризация; для конфиденциального, локально или российское облако; для видео, экспорт в субтитры; и всегда закладывайте время на финальную вычитку.
5 ошибок при транскрибации
Ошибка 1: «Беру Otter.ai, он самый известный»
Что не так: Otter.ai не поддерживает русский язык вовсе, на русской записи он выдаёт бессмыслицу. Популярность за рубежом не значит пригодность для русского.
Что делать: для русской речи брать российские сервисы или мультиязычные платформы, которые честно поддерживают русский (TurboScribe, Speech2Text, Any2Text).
Ошибка 2: «Залью запись переговоров в любой облачный сервис»
Что не так: голосовая запись может содержать персональные данные и биометрию; загрузка в зарубежный сервис рискует нарушить 152-ФЗ.
Что делать: чувствительное аудио расшифровывать локально (Whisper, GigaAM на своём ПК) или в российском сервисе с обработкой в РФ и договором поручения.
Ошибка 3: «Whisper, лучший движок, ставлю его на русский»
Что не так: на русском ванильный Whisper втрое менее точен, чем российские модели, и галлюцинирует на тишине, выдумывая текст.
Что делать: для русского брать GigaAM, T-one или сервис на их основе; если нужен именно Whisper, использовать дообученную на русском версию с детекцией речи.
Ошибка 4: «Записал интервью на один микрофон, нейросеть сама разделит»
Что не так: при наложении голосов и эхе диаризация ошибается, и расшифровка интервью превращается в кашу без понимания, кто говорит.
Что делать: по возможности писать каждого спикера на отдельный канал и выбирать сервис с честной поддержкой диаризации.
Ошибка 5: «Сервис обещает 99,8% точности, вычитывать не буду»
Что не так: «99,8%» — это маркетинг на идеальном аудио; на реальной записи ошибки есть всегда, особенно в именах, терминах и пунктуации.
Что делать: относиться к машинной расшифровке как к черновику и закладывать время на вычитку, обычно это 30-40 минут на час записи.
Вывод
Перевести аудио или видео в текст сегодня, дело минут, а не часов: то, на что у фрилансера уходит 4-6 часов работы и полторы тысячи рублей за час записи, нейросеть делает почти мгновенно и за копейки. Главное, что стоит запомнить: для русского языка точнее всего работают российские модели, GigaAM от Sber и T-one от T-Bank, которые по точности обходят популярный Whisper в разы, а самый раскрученный западный сервис Otter.ai русский не поддерживает вовсе. Бесплатно расшифровать реально через браузерный Speechpad, free-лимиты облаков вроде SaluteSpeech или локальный Whisper. Для интервью и созвонов выбирайте сервис с диаризацией, для видео, с экспортом в субтитры SRT и VTT. И помните про приватность: голосовые записи с персональными данными нельзя бездумно грузить в облако, чувствительное аудио расшифровывайте локально или в российском сервисе с обработкой в РФ. А любую машинную расшифровку относите к черновику: она экономит часы, но финальная вычитка всё равно за человеком. А для смежных задач со звуком у нас есть отдельные разборы: как отредактировать аудио онлайн, как изменить голос войс-чейнджером, как разделить вокал и инструментал и как убрать шум из записи и микрофона.
Источники
🧠 Модели и точность распознавания
- Habr, SberDevices, 04.12.2025, GigaAM-v3: открытая SOTA-модель распознавания речи на русском (WER 6,7% против 20,8% у Whisper)
- Habr, 21.02.2026, независимое сравнение GigaAM, Whisper и Vosk на CPU (WER с 33% до 3,3%)
- Habr, T-Bank, 22.07.2025, открытая потоковая модель T-one для телефонии
- github.com/salute-developers/GigaAM, репозиторий и лицензия MIT
- huggingface.co, карточка модели Whisper large-v3
🛠 Сервисы и тарифы
- openai.com, цены Whisper API и gpt-4o-transcribe
- developers.sber.ru, 05.03.2026, тарифы SaluteSpeech (100 минут в месяц бесплатно)
- aistudio.yandex.ru, тарификация Yandex SpeechKit
- turboscribe.ai, тарифы и лимиты TurboScribe
📰 Рынок, практика и приватность
- MarketsandMarkets, объём рынка распознавания речи (9,66 млрд в 2025, 23,11 млрд к 2030)
- Habr, 28.10.2024, исследование о галлюцинациях Whisper в медрасшифровках
- kwork.ru, цены на ручную расшифровку у фрилансеров
- Computerra, ИИ-конспекты встреч в Яндекс Телемосте
- Pikabu, 17.02.2025, сравнение 6 российских сервисов транскрибации





