OCR PDF
Распознавайте текст в отсканированных PDF: получите PDF, в котором можно искать, копировать и выделять текст
OCR PDF онлайн — распознать текст в пдф бесплатно
Бесплатный онлайн-инструмент распознаёт текст в отсканированных PDF и фотографиях документов. Загрузите PDF — получите PDF того же вида, но с текстовым слоем поверх изображения: теперь по документу можно искать (Ctrl+F), копировать текст, выделять и цитировать. Внешний вид страниц остаётся как был, но из «картинки» PDF превращается в полнофункциональный текстовый документ.
Под капотом — Tesseract, открытый OCR-движок, разработанный изначально в HP, потом переданный Google. Tesseract — один из лучших бесплатных OCR-движков в мире, поддерживает русский и английский языки на одинаково высоком уровне. Точность распознавания на качественных сканах — 98-99%, на фотографиях документов — 90-95%.
- Распознавание русского и английского одновременно (rus+eng)
- Текстовый слой поверх картинки — внешний вид PDF не меняется
- Поиск по документу (Ctrl+F) и копирование текста работают в любой читалке
- Точность 98-99% на качественных сканах, 90-95% на фотографиях
- До 50 МБ на входе — подходит для отчётов до 30-50 страниц
- Файл удаляется с сервера через 15 минут после обработки
Когда нужен OCR пдф (типичные сценарии)
Самый частый случай — старые отсканированные документы. У бухгалтера, юриста или госслужащего часто есть архивы сканов, в которых нужно найти конкретные записи. До OCR это делается перелистыванием каждой страницы вручную. После OCR — Ctrl+F и поиск по слову.
Второй сценарий — фотографии договоров и квитанций с телефона. Сфотографировали страницу договора, но потом нужно процитировать конкретный пункт в письме. Без OCR — переписываете руками с экрана. С OCR — открываете PDF в любом редакторе, выделяете нужный текст и копируете.
Третий — конвертация в редактируемые форматы. Чтобы перенести текст из отсканированного договора в Word, сначала нужно его распознать. После OCR можно конвертировать PDF в Word — текст уйдёт как настоящий, а не как картинка с буквами.
И ещё один кейс — индексация архивов. У компании 10000 отсканированных накладных за 5 лет. Без OCR — это большая папка с картинками, найти что-то конкретное невозможно. После OCR — это полнотекстовый архив, в котором поиск находит любую накладную за 5 секунд.
От чего зависит качество распознавания
Главное — разрешение исходника. Скан 300 DPI — это идеал, OCR работает на 99%. Скан 200 DPI — норма, 95-98%. Скан 150 DPI — приемлемо, 90-95%. Меньше 150 DPI — текст начинает «плыть», точность падает до 80-90%. Если у вас плохой скан — попробуйте пересканировать на 300 DPI.
Второй фактор — качество исходного документа. Чёткая печать на белой бумаге — идеал. Текст на цветной бумаге, копия копии копии, выцветший факс, фотография под углом — всё это снижает точность. Перед загрузкой убедитесь, что документ читается глазами без напряжения — Tesseract тоже его не разберёт лучше вас.
Третий фактор — язык. Tesseract автоматически распознаёт русский и английский одновременно (rus+eng). Это покрывает 99% документов на постсоветском пространстве. Если в документе только английский — выберите этот язык в настройках для лучшей точности (правда, на нашем инструменте смешанный режим работает достаточно хорошо).
Последний фактор — шрифты. Стандартные Times, Arial, Helvetica распознаются почти идеально. Декоративные шрифты, рукопись, готическое письмо — это уже задача для специализированных моделей, которых в стандартном Tesseract нет.
История Игоря: подготовка к юридическому процессу
Игорь — юрист корпоративного отдела. Готовится к суду — нужно процитировать 12 конкретных пунктов из договора с контрагентом. Договор пришёл от другой стороны сканом на 40 страниц, без текстового слоя. Найти 12 пунктов вручную — это 2-3 часа перелистывания и переписывания текста с экрана. До суда 4 часа.
Открыл toolfox.ru/tools/ocr-pdf
Загрузил отсканированный договор (18 МБ, 40 страниц)
Нажал «Распознать текст» — через 3.5 минуты получил PDF с текстовым слоем
Открыл в Adobe Reader, по очереди ищет нужные пункты через Ctrl+F
Копирует точные формулировки в иск, оформляет цитаты
Подготовка к суду заняла 30 минут вместо 3 часов. Все цитаты из договора оформлены как точные формулировки сторон, что усилило юридический иск. Дело выиграли — ключевую роль сыграло точное цитирование пунктов, которое стало возможно только после OCR.
Знаете ли вы?
Tesseract разработан в Hewlett-Packard в 1985 году как часть исследовательского проекта по сканерам. В 2005 году HP открыла исходники, в 2006 — Google взял проект под своё крыло и развивает до сих пор. На Tesseract работают Google Drive OCR, Adobe Acrobat (частично) и десятки других сервисов.
Tesseract версии 4.0+ использует нейронные сети LSTM для распознавания — это совсем не тот алгоритм, что был в первоначальной версии. На современных шрифтах точность сравнялась с коммерческими движками вроде ABBYY FineReader, при этом Tesseract бесплатный.
Tesseract поддерживает 100+ языков — от русского и английского до древнегреческого и санскрита. Для каждого языка нужна отдельная «модель» (файл .traineddata размером 5-50 МБ). На нашем сервере установлены русский и английский — этого хватает на 99% задач.
Tesseract распознаёт текст в три этапа: 1) выравнивает страницу (находит угол наклона). 2) находит блоки текста и сегментирует их на строки и слова. 3) распознаёт каждое слово через LSTM. Поэтому скорость почти не зависит от количества текста — главное количество страниц и их разрешение.
Что делать, если документ распознался плохо
Главная причина плохого распознавания — низкое качество скана. Попробуйте пересканировать на 300 DPI с настройкой «Чёрно-белый текст» (а не «Цветная фотография»). Если документ — фотография с телефона, переснимите при дневном освещении, ровно сверху, без теней. Если всё равно плохо — рассмотрите ABBYY FineReader Online или Adobe Acrobat Pro: коммерческие движки умеют чуть лучше работать с плохими сканами за счёт натренированных на специфические шрифты моделей.
Как распознать текст в PDF — пошаговая инструкция
Подготовьте качественный скан
Лучше всего — скан 300 DPI, чёрно-белый, на белой бумаге. Если у вас плохое качество, перед загрузкой попробуйте пересканировать или сфотографировать с прямым освещением, ровно сверху, без теней.
Загрузите PDF
Перетащите PDF в зону загрузки или нажмите на неё и выберите файл. Принимаем документы до 50 МБ.
Нажмите «Распознать текст»
Tesseract обработает каждую страницу. На странице — около 5-10 секунд при 300 DPI. На документ из 20 страниц уйдёт 1.5-2 минуты. Прогресс пока не показываем — просто подождите.
Скачайте распознанный PDF
Получите файл с суффиксом _ocr.pdf. Внешне он выглядит как исходный, но если выделить текст — он будет копироваться. Поиск по документу (Ctrl+F) теперь тоже работает.
Примеры использования OCR для PDF
Поиск пункта в отсканированном договоре
Получили подписанный договор сканом на 30 страниц. Нужно процитировать пункт 5.3.2 в письме. Распознали через OCR, открыли в Adobe Reader, Ctrl+F → «5.3.2» → нашли за секунду, скопировали и вставили в письмо.
Архив накладных за год
У бухгалтерии 500 отсканированных накладных. Поиск конкретной накладной по номеру или названию контрагента занимал 30+ минут. После OCR всех накладных — поиск занимает 5 секунд. Архив стал полнотекстовым.
Перевод фотографии договора в Word
Юристу прислали фото договора в WhatsApp. Нужно внести правки в Word. Сохранили как PDF, прогнали через OCR, конвертировали PDF→Word — текст переехал как настоящий, юрист правит в Word.
Подготовка диссертации к защите
Аспирант сканировал старые статьи для библиографии — все в виде картинок-PDF. Чтобы цитировать конкретные фразы, нужно перепечатывать руками. После OCR — выделил, скопировал, вставил в диссертацию с прямой цитатой.
Часто задаваемые вопросы про OCR PDF
Как распознать текст в PDF онлайн бесплатно?
Сохранится ли вид документа после OCR?
Какая точность распознавания?
Поддерживаются ли русский и английский?
Какой максимальный размер PDF?
Сколько времени занимает OCR?
Что делать с ошибками после распознавания?
Можно ли распознать рукописный текст?
Полезная информация
🔒 Конфиденциальность. Файл удаляется с сервера через 15 минут после обработки. Tesseract работает локально на сервере, никаких внешних запросов.
🎯 Точность 98-99%. На качественных сканах (300 DPI) Tesseract даёт промышленную точность, сравнимую с коммерческими движками вроде ABBYY FineReader. На плохих сканах точность падает до 80-90%.
🌍 Двуязычность. Стандартно распознаём rus+eng — покрывает 99% документов в России. В одном PDF могут быть страницы на разных языках или смешанный текст — всё распознается.
⚡ Скорость. OCR — самая медленная из PDF-операций. На страницу 300 DPI уходит 5-10 секунд. На 20-страничный документ — 1.5-2 минуты. На 50-страничный — 3-5 минут.
Комментарии (1)
🔎Похожие инструменты
Подпись на PDF
Добавляйте текстовую подпись на PDF: ФИО, должность, реквизиты — выбор позиции, размера и страниц
Нумерация страниц PDF
Добавляйте номера страниц на PDF: «1», «1 из 12», «Стр. 1» — выбор позиции, формата и стартового номера
Конвертер JPG в PDF
Конвертируйте JPG/JPEG-картинку в PDF-документ: сохраняем разрешение, реальный размер страницы, без потери качества
Конвертер PNG в PDF
Конвертируйте PNG-картинку в PDF без сжатия: текст и линии остаются резкими, прозрачный фон становится белым
Конвертер Word в PDF
Конвертируйте Word-документ (DOCX) в PDF: сохраняем шрифты, заголовки, таблицы, картинки, нумерацию страниц и оглавление
Конвертер Excel в PDF
Конвертируйте Excel-таблицу (XLSX) в PDF: каждый лист книги — отдельная страница, сохраняем формулы, форматирование, цвет ячеек и границы
Конвертер PowerPoint в PDF
Конвертируйте презентацию PowerPoint (PPTX) в PDF: каждый слайд — отдельная страница, сохраняем шрифты, картинки, цвета и анимации (как статичные)
Конвертер HTML в PDF
Конвертируйте HTML-файл (.html, .htm) в PDF: сохраняем встроенные стили, шрифты, картинки, таблицы, разметку