🔎

OCR PDF

Распознавайте текст в отсканированных PDF: получите PDF, в котором можно искать, копировать и выделять текст

Перетащите PDF сюда или нажмите, чтобы выбрать

Принимаем сканы и фото в .pdf размером до 50 МБ

Файл удаляется с сервера через 15 минут после обработки

Tesseract OCR — открытый движок Google

OCR PDF онлайн — распознать текст в пдф бесплатно

Бесплатный онлайн-инструмент распознаёт текст в отсканированных PDF и фотографиях документов. Загрузите PDF — получите PDF того же вида, но с текстовым слоем поверх изображения: теперь по документу можно искать (Ctrl+F), копировать текст, выделять и цитировать. Внешний вид страниц остаётся как был, но из «картинки» PDF превращается в полнофункциональный текстовый документ.

Под капотом — Tesseract, открытый OCR-движок, разработанный изначально в HP, потом переданный Google. Tesseract — один из лучших бесплатных OCR-движков в мире, поддерживает русский и английский языки на одинаково высоком уровне. Точность распознавания на качественных сканах — 98-99%, на фотографиях документов — 90-95%.

Распознавание русского и английского одновременно (rus+eng)
Текстовый слой поверх картинки — внешний вид PDF не меняется
Поиск по документу (Ctrl+F) и копирование текста работают в любой читалке
Точность 98-99% на качественных сканах, 90-95% на фотографиях
До 50 МБ на входе — подходит для отчётов до 30-50 страниц
Файл удаляется с сервера через 15 минут после обработки

Когда нужен OCR пдф (типичные сценарии)

Самый частый случай — старые отсканированные документы. У бухгалтера, юриста или госслужащего часто есть архивы сканов, в которых нужно найти конкретные записи. До OCR это делается перелистыванием каждой страницы вручную. После OCR — Ctrl+F и поиск по слову.

Второй сценарий — фотографии договоров и квитанций с телефона. Сфотографировали страницу договора, но потом нужно процитировать конкретный пункт в письме. Без OCR — переписываете руками с экрана. С OCR — открываете PDF в любом редакторе, выделяете нужный текст и копируете.

Третий — конвертация в редактируемые форматы. Чтобы перенести текст из отсканированного договора в Word, сначала нужно его распознать. После OCR можно конвертировать PDF в Word — текст уйдёт как настоящий, а не как картинка с буквами.

И ещё один кейс — индексация архивов. У компании 10000 отсканированных накладных за 5 лет. Без OCR — это большая папка с картинками, найти что-то конкретное невозможно. После OCR — это полнотекстовый архив, в котором поиск находит любую накладную за 5 секунд.

От чего зависит качество распознавания

Главное — разрешение исходника. Скан 300 DPI — это идеал, OCR работает на 99%. Скан 200 DPI — норма, 95-98%. Скан 150 DPI — приемлемо, 90-95%. Меньше 150 DPI — текст начинает «плыть», точность падает до 80-90%. Если у вас плохой скан — попробуйте пересканировать на 300 DPI.

Второй фактор — качество исходного документа. Чёткая печать на белой бумаге — идеал. Текст на цветной бумаге, копия копии копии, выцветший факс, фотография под углом — всё это снижает точность. Перед загрузкой убедитесь, что документ читается глазами без напряжения — Tesseract тоже его не разберёт лучше вас.

Третий фактор — язык. Tesseract автоматически распознаёт русский и английский одновременно (rus+eng). Это покрывает 99% документов на постсоветском пространстве. Если в документе только английский — выберите этот язык в настройках для лучшей точности (правда, на нашем инструменте смешанный режим работает достаточно хорошо).

Последний фактор — шрифты. Стандартные Times, Arial, Helvetica распознаются почти идеально. Декоративные шрифты, рукопись, готическое письмо — это уже задача для специализированных моделей, которых в стандартном Tesseract нет.

⚖️

История Игоря: подготовка к юридическому процессу

Игорь — юрист корпоративного отдела. Готовится к суду — нужно процитировать 12 конкретных пунктов из договора с контрагентом. Договор пришёл от другой стороны сканом на 40 страниц, без текстового слоя. Найти 12 пунктов вручную — это 2-3 часа перелистывания и переписывания текста с экрана. До суда 4 часа.

Открыл toolfox.ru/tools/ocr-pdf

Загрузил отсканированный договор (18 МБ, 40 страниц)

Нажал «Распознать текст» — через 3.5 минуты получил PDF с текстовым слоем

Открыл в Adobe Reader, по очереди ищет нужные пункты через Ctrl+F

Копирует точные формулировки в иск, оформляет цитаты

✅

Подготовка к суду заняла 30 минут вместо 3 часов. Все цитаты из договора оформлены как точные формулировки сторон, что усилило юридический иск. Дело выиграли — ключевую роль сыграло точное цитирование пунктов, которое стало возможно только после OCR.

🧠

Знаете ли вы?

🔬

Tesseract разработан в Hewlett-Packard в 1985 году как часть исследовательского проекта по сканерам. В 2005 году HP открыла исходники, в 2006 — Google взял проект под своё крыло и развивает до сих пор. На Tesseract работают Google Drive OCR, Adobe Acrobat (частично) и десятки других сервисов.

🎯

Tesseract версии 4.0+ использует нейронные сети LSTM для распознавания — это совсем не тот алгоритм, что был в первоначальной версии. На современных шрифтах точность сравнялась с коммерческими движками вроде ABBYY FineReader, при этом Tesseract бесплатный.

🌍

Tesseract поддерживает 100+ языков — от русского и английского до древнегреческого и санскрита. Для каждого языка нужна отдельная «модель» (файл .traineddata размером 5-50 МБ). На нашем сервере установлены русский и английский — этого хватает на 99% задач.

⚙️

Tesseract распознаёт текст в три этапа: 1) выравнивает страницу (находит угол наклона). 2) находит блоки текста и сегментирует их на строки и слова. 3) распознаёт каждое слово через LSTM. Поэтому скорость почти не зависит от количества текста — главное количество страниц и их разрешение.

⚠️

Что делать, если документ распознался плохо

Главная причина плохого распознавания — низкое качество скана. Попробуйте пересканировать на 300 DPI с настройкой «Чёрно-белый текст» (а не «Цветная фотография»). Если документ — фотография с телефона, переснимите при дневном освещении, ровно сверху, без теней. Если всё равно плохо — рассмотрите ABBYY FineReader Online или Adobe Acrobat Pro: коммерческие движки умеют чуть лучше работать с плохими сканами за счёт натренированных на специфические шрифты моделей.

Как распознать текст в PDF — пошаговая инструкция

Подготовьте качественный скан

Лучше всего — скан 300 DPI, чёрно-белый, на белой бумаге. Если у вас плохое качество, перед загрузкой попробуйте пересканировать или сфотографировать с прямым освещением, ровно сверху, без теней.

Загрузите PDF

Перетащите PDF в зону загрузки или нажмите на неё и выберите файл. Принимаем документы до 50 МБ.

Нажмите «Распознать текст»

Tesseract обработает каждую страницу. На странице — около 5-10 секунд при 300 DPI. На документ из 20 страниц уйдёт 1.5-2 минуты. Прогресс пока не показываем — просто подождите.

Скачайте распознанный PDF

Получите файл с суффиксом _ocr.pdf. Внешне он выглядит как исходный, но если выделить текст — он будет копироваться. Поиск по документу (Ctrl+F) теперь тоже работает.

Примеры использования OCR для PDF

Поиск пункта в отсканированном договоре

Получили подписанный договор сканом на 30 страниц. Нужно процитировать пункт 5.3.2 в письме. Распознали через OCR, открыли в Adobe Reader, Ctrl+F → «5.3.2» → нашли за секунду, скопировали и вставили в письмо.

Архив накладных за год

У бухгалтерии 500 отсканированных накладных. Поиск конкретной накладной по номеру или названию контрагента занимал 30+ минут. После OCR всех накладных — поиск занимает 5 секунд. Архив стал полнотекстовым.

Перевод фотографии договора в Word

Юристу прислали фото договора в WhatsApp. Нужно внести правки в Word. Сохранили как PDF, прогнали через OCR, конвертировали PDF→Word — текст переехал как настоящий, юрист правит в Word.

Подготовка диссертации к защите

Аспирант сканировал старые статьи для библиографии — все в виде картинок-PDF. Чтобы цитировать конкретные фразы, нужно перепечатывать руками. После OCR — выделил, скопировал, вставил в диссертацию с прямой цитатой.

Часто задаваемые вопросы про OCR PDF

Как распознать текст в PDF онлайн бесплатно?

Загрузите отсканированный PDF в окно (или перетащите мышью), нажмите «Распознать текст». Через 30-90 секунд (зависит от количества страниц) скачаете PDF того же вида, но с текстовым слоем — по нему можно искать, копировать текст, выделять. Бесплатно, без регистрации.

Сохранится ли вид документа после OCR?

Да, полностью. OCR добавляет невидимый текстовый слой поверх картинки страницы — внешне ничего не меняется. Когда вы выделяете текст, выделение «попадает» в этот невидимый слой, поэтому копируется именно распознанный текст.

Какая точность распознавания?

На качественных сканах (300 DPI, чёрно-белая печать на белой бумаге) — 98-99%, почти без ошибок. На фотографиях с телефона — 90-95%, могут быть ошибки в местах с тенями или искажениями. На плохих сканах (150 DPI, пожелтевшая бумага) — 80-90%, нужно перечитывать после распознавания.

Поддерживаются ли русский и английский?

Да, и одновременно. Стандартные настройки — rus+eng, что покрывает 99% документов в России. В одном PDF могут быть страницы на разных языках или смешанный текст — Tesseract распознает.

Какой максимальный размер PDF?

До 50 МБ. Этого хватает на 30-50 страниц высококачественного скана 300 DPI или 100-150 страниц обычного скана 200 DPI. Если файл больше — попробуйте сначала разделить через инструмент «Разделить PDF», обработать части отдельно, потом объединить.

Сколько времени занимает OCR?

Зависит от количества страниц и качества сканов. Маленький документ на 5 страниц — 15-30 секунд. Средний на 20 страниц — 60-90 секунд. Большой на 50 страниц — 3-5 минут. OCR — самая медленная из всех PDF-операций, потому что Tesseract «читает» каждый пиксель страницы.

Что делать с ошибками после распознавания?

OCR никогда не даёт 100% точности. После распознавания проверьте критически важные места (например, имена, номера, даты) — там могут быть ошибки. Если документ нужно использовать как юридический — лучше распознать через ABBYY FineReader или Adobe Acrobat Pro, у них точность чуть выше за счёт коммерческих обученных моделей.

Можно ли распознать рукописный текст?

Стандартный Tesseract плохо работает с рукописью — он обучен на печатных шрифтах. Точность на рукописи 30-60%, что для практического использования слишком мало. Для рукописи нужны специализированные модели (Google Cloud Vision, Microsoft Azure OCR), которые в нашем инструменте недоступны.

Полезная информация

🔒 Конфиденциальность. Файл удаляется с сервера через 15 минут после обработки. Tesseract работает локально на сервере, никаких внешних запросов.

🎯 Точность 98-99%. На качественных сканах (300 DPI) Tesseract даёт промышленную точность, сравнимую с коммерческими движками вроде ABBYY FineReader. На плохих сканах точность падает до 80-90%.

🌍 Двуязычность. Стандартно распознаём rus+eng — покрывает 99% документов в России. В одном PDF могут быть страницы на разных языках или смешанный текст — всё распознается.

⚡ Скорость. OCR — самая медленная из PDF-операций. На страницу 300 DPI уходит 5-10 секунд. На 20-страничный документ — 1.5-2 минуты. На 50-страничный — 3-5 минут.

🎉 Спасибо, что используете наши инструменты! Все инструменты на ToolFox полностью бесплатны и постоянно улучшаются. 📝 Пожалуйста, оставляйте комментарии: - Если инструмент работает некорректно - Если есть идеи по улучшению - Поделитесь своим опытом использования 👍 Ставьте лайки/дизлайки - это помогает мне понять, какие инструменты нуждаются в доработке. Я обновляю сайт каждую неделю на основе вашей обратной связи. ⭐ Если вам нравится ToolFox — буду благодарен за отзыв о сайте в Яндекс.Браузере (нажмите на ⋮ → «Оценить сайт» в панели браузера). Это помогает другим людям находить наши инструменты! 😊 Также вы можете написать мне напрямую в Telegram: @avdeevrus Все доработки и улучшения по вашим пожеланиям делаю бесплатно! Благодарю за доверие и использование ToolFox! 🚀