🔎

OCR PDF

Распознавайте текст в отсканированных PDF: получите PDF, в котором можно искать, копировать и выделять текст

Загрузка инструмента...

OCR PDF онлайн — распознать текст в пдф бесплатно

Бесплатный онлайн-инструмент распознаёт текст в отсканированных PDF и фотографиях документов. Загрузите PDF — получите PDF того же вида, но с текстовым слоем поверх изображения: теперь по документу можно искать (Ctrl+F), копировать текст, выделять и цитировать. Внешний вид страниц остаётся как был, но из «картинки» PDF превращается в полнофункциональный текстовый документ.

Под капотом — Tesseract, открытый OCR-движок, разработанный изначально в HP, потом переданный Google. Tesseract — один из лучших бесплатных OCR-движков в мире, поддерживает русский и английский языки на одинаково высоком уровне. Точность распознавания на качественных сканах — 98-99%, на фотографиях документов — 90-95%.

  • Распознавание русского и английского одновременно (rus+eng)
  • Текстовый слой поверх картинки — внешний вид PDF не меняется
  • Поиск по документу (Ctrl+F) и копирование текста работают в любой читалке
  • Точность 98-99% на качественных сканах, 90-95% на фотографиях
  • До 50 МБ на входе — подходит для отчётов до 30-50 страниц
  • Файл удаляется с сервера через 15 минут после обработки

Когда нужен OCR пдф (типичные сценарии)

Самый частый случай — старые отсканированные документы. У бухгалтера, юриста или госслужащего часто есть архивы сканов, в которых нужно найти конкретные записи. До OCR это делается перелистыванием каждой страницы вручную. После OCR — Ctrl+F и поиск по слову.

Второй сценарий — фотографии договоров и квитанций с телефона. Сфотографировали страницу договора, но потом нужно процитировать конкретный пункт в письме. Без OCR — переписываете руками с экрана. С OCR — открываете PDF в любом редакторе, выделяете нужный текст и копируете.

Третий — конвертация в редактируемые форматы. Чтобы перенести текст из отсканированного договора в Word, сначала нужно его распознать. После OCR можно конвертировать PDF в Word — текст уйдёт как настоящий, а не как картинка с буквами.

И ещё один кейс — индексация архивов. У компании 10000 отсканированных накладных за 5 лет. Без OCR — это большая папка с картинками, найти что-то конкретное невозможно. После OCR — это полнотекстовый архив, в котором поиск находит любую накладную за 5 секунд.

    От чего зависит качество распознавания

    Главное — разрешение исходника. Скан 300 DPI — это идеал, OCR работает на 99%. Скан 200 DPI — норма, 95-98%. Скан 150 DPI — приемлемо, 90-95%. Меньше 150 DPI — текст начинает «плыть», точность падает до 80-90%. Если у вас плохой скан — попробуйте пересканировать на 300 DPI.

    Второй фактор — качество исходного документа. Чёткая печать на белой бумаге — идеал. Текст на цветной бумаге, копия копии копии, выцветший факс, фотография под углом — всё это снижает точность. Перед загрузкой убедитесь, что документ читается глазами без напряжения — Tesseract тоже его не разберёт лучше вас.

    Третий фактор — язык. Tesseract автоматически распознаёт русский и английский одновременно (rus+eng). Это покрывает 99% документов на постсоветском пространстве. Если в документе только английский — выберите этот язык в настройках для лучшей точности (правда, на нашем инструменте смешанный режим работает достаточно хорошо).

    Последний фактор — шрифты. Стандартные Times, Arial, Helvetica распознаются почти идеально. Декоративные шрифты, рукопись, готическое письмо — это уже задача для специализированных моделей, которых в стандартном Tesseract нет.

      ⚖️

      История Игоря: подготовка к юридическому процессу

      Игорь — юрист корпоративного отдела. Готовится к суду — нужно процитировать 12 конкретных пунктов из договора с контрагентом. Договор пришёл от другой стороны сканом на 40 страниц, без текстового слоя. Найти 12 пунктов вручную — это 2-3 часа перелистывания и переписывания текста с экрана. До суда 4 часа.

      1

      Открыл toolfox.ru/tools/ocr-pdf

      2

      Загрузил отсканированный договор (18 МБ, 40 страниц)

      3

      Нажал «Распознать текст» — через 3.5 минуты получил PDF с текстовым слоем

      4

      Открыл в Adobe Reader, по очереди ищет нужные пункты через Ctrl+F

      5

      Копирует точные формулировки в иск, оформляет цитаты

      Подготовка к суду заняла 30 минут вместо 3 часов. Все цитаты из договора оформлены как точные формулировки сторон, что усилило юридический иск. Дело выиграли — ключевую роль сыграло точное цитирование пунктов, которое стало возможно только после OCR.

      🧠

      Знаете ли вы?

      🔬

      Tesseract разработан в Hewlett-Packard в 1985 году как часть исследовательского проекта по сканерам. В 2005 году HP открыла исходники, в 2006 — Google взял проект под своё крыло и развивает до сих пор. На Tesseract работают Google Drive OCR, Adobe Acrobat (частично) и десятки других сервисов.

      🎯

      Tesseract версии 4.0+ использует нейронные сети LSTM для распознавания — это совсем не тот алгоритм, что был в первоначальной версии. На современных шрифтах точность сравнялась с коммерческими движками вроде ABBYY FineReader, при этом Tesseract бесплатный.

      🌍

      Tesseract поддерживает 100+ языков — от русского и английского до древнегреческого и санскрита. Для каждого языка нужна отдельная «модель» (файл .traineddata размером 5-50 МБ). На нашем сервере установлены русский и английский — этого хватает на 99% задач.

      ⚙️

      Tesseract распознаёт текст в три этапа: 1) выравнивает страницу (находит угол наклона). 2) находит блоки текста и сегментирует их на строки и слова. 3) распознаёт каждое слово через LSTM. Поэтому скорость почти не зависит от количества текста — главное количество страниц и их разрешение.

      ⚠️

      Что делать, если документ распознался плохо

      Главная причина плохого распознавания — низкое качество скана. Попробуйте пересканировать на 300 DPI с настройкой «Чёрно-белый текст» (а не «Цветная фотография»). Если документ — фотография с телефона, переснимите при дневном освещении, ровно сверху, без теней. Если всё равно плохо — рассмотрите ABBYY FineReader Online или Adobe Acrobat Pro: коммерческие движки умеют чуть лучше работать с плохими сканами за счёт натренированных на специфические шрифты моделей.

      Как распознать текст в PDF — пошаговая инструкция

      1

      Подготовьте качественный скан

      Лучше всего — скан 300 DPI, чёрно-белый, на белой бумаге. Если у вас плохое качество, перед загрузкой попробуйте пересканировать или сфотографировать с прямым освещением, ровно сверху, без теней.

      2

      Загрузите PDF

      Перетащите PDF в зону загрузки или нажмите на неё и выберите файл. Принимаем документы до 50 МБ.

      3

      Нажмите «Распознать текст»

      Tesseract обработает каждую страницу. На странице — около 5-10 секунд при 300 DPI. На документ из 20 страниц уйдёт 1.5-2 минуты. Прогресс пока не показываем — просто подождите.

      4

      Скачайте распознанный PDF

      Получите файл с суффиксом _ocr.pdf. Внешне он выглядит как исходный, но если выделить текст — он будет копироваться. Поиск по документу (Ctrl+F) теперь тоже работает.

      Примеры использования OCR для PDF

      Поиск пункта в отсканированном договоре

      Получили подписанный договор сканом на 30 страниц. Нужно процитировать пункт 5.3.2 в письме. Распознали через OCR, открыли в Adobe Reader, Ctrl+F → «5.3.2» → нашли за секунду, скопировали и вставили в письмо.

      Архив накладных за год

      У бухгалтерии 500 отсканированных накладных. Поиск конкретной накладной по номеру или названию контрагента занимал 30+ минут. После OCR всех накладных — поиск занимает 5 секунд. Архив стал полнотекстовым.

      Перевод фотографии договора в Word

      Юристу прислали фото договора в WhatsApp. Нужно внести правки в Word. Сохранили как PDF, прогнали через OCR, конвертировали PDF→Word — текст переехал как настоящий, юрист правит в Word.

      Подготовка диссертации к защите

      Аспирант сканировал старые статьи для библиографии — все в виде картинок-PDF. Чтобы цитировать конкретные фразы, нужно перепечатывать руками. После OCR — выделил, скопировал, вставил в диссертацию с прямой цитатой.

      Часто задаваемые вопросы про OCR PDF

      Как распознать текст в PDF онлайн бесплатно?
      Загрузите отсканированный PDF в окно (или перетащите мышью), нажмите «Распознать текст». Через 30-90 секунд (зависит от количества страниц) скачаете PDF того же вида, но с текстовым слоем — по нему можно искать, копировать текст, выделять. Бесплатно, без регистрации.
      Сохранится ли вид документа после OCR?
      Да, полностью. OCR добавляет невидимый текстовый слой поверх картинки страницы — внешне ничего не меняется. Когда вы выделяете текст, выделение «попадает» в этот невидимый слой, поэтому копируется именно распознанный текст.
      Какая точность распознавания?
      На качественных сканах (300 DPI, чёрно-белая печать на белой бумаге) — 98-99%, почти без ошибок. На фотографиях с телефона — 90-95%, могут быть ошибки в местах с тенями или искажениями. На плохих сканах (150 DPI, пожелтевшая бумага) — 80-90%, нужно перечитывать после распознавания.
      Поддерживаются ли русский и английский?
      Да, и одновременно. Стандартные настройки — rus+eng, что покрывает 99% документов в России. В одном PDF могут быть страницы на разных языках или смешанный текст — Tesseract распознает.
      Какой максимальный размер PDF?
      До 50 МБ. Этого хватает на 30-50 страниц высококачественного скана 300 DPI или 100-150 страниц обычного скана 200 DPI. Если файл больше — попробуйте сначала разделить через инструмент «Разделить PDF», обработать части отдельно, потом объединить.
      Сколько времени занимает OCR?
      Зависит от количества страниц и качества сканов. Маленький документ на 5 страниц — 15-30 секунд. Средний на 20 страниц — 60-90 секунд. Большой на 50 страниц — 3-5 минут. OCR — самая медленная из всех PDF-операций, потому что Tesseract «читает» каждый пиксель страницы.
      Что делать с ошибками после распознавания?
      OCR никогда не даёт 100% точности. После распознавания проверьте критически важные места (например, имена, номера, даты) — там могут быть ошибки. Если документ нужно использовать как юридический — лучше распознать через ABBYY FineReader или Adobe Acrobat Pro, у них точность чуть выше за счёт коммерческих обученных моделей.
      Можно ли распознать рукописный текст?
      Стандартный Tesseract плохо работает с рукописью — он обучен на печатных шрифтах. Точность на рукописи 30-60%, что для практического использования слишком мало. Для рукописи нужны специализированные модели (Google Cloud Vision, Microsoft Azure OCR), которые в нашем инструменте недоступны.

      Полезная информация

      🔒 Конфиденциальность. Файл удаляется с сервера через 15 минут после обработки. Tesseract работает локально на сервере, никаких внешних запросов.

      🎯 Точность 98-99%. На качественных сканах (300 DPI) Tesseract даёт промышленную точность, сравнимую с коммерческими движками вроде ABBYY FineReader. На плохих сканах точность падает до 80-90%.

      🌍 Двуязычность. Стандартно распознаём rus+eng — покрывает 99% документов в России. В одном PDF могут быть страницы на разных языках или смешанный текст — всё распознается.

      ⚡ Скорость. OCR — самая медленная из PDF-операций. На страницу 300 DPI уходит 5-10 секунд. На 20-страничный документ — 1.5-2 минуты. На 50-страничный — 3-5 минут.

      Комментарии (1)

      Был ли полезен этот инструмент?
      Руслан Авдеев (автор проекта)1 янв. 2024 г., 00:00
      🎉 Спасибо, что используете наши инструменты! Все инструменты на ToolFox полностью бесплатны и постоянно улучшаются. 📝 Пожалуйста, оставляйте комментарии: - Если инструмент работает некорректно - Если есть идеи по улучшению - Поделитесь своим опытом использования 👍 Ставьте лайки/дизлайки - это помогает мне понять, какие инструменты нуждаются в доработке. Я обновляю сайт каждую неделю на основе вашей обратной связи. ⭐ Если вам нравится ToolFox — буду благодарен за отзыв о сайте в Яндекс.Браузере (нажмите на ⋮ → «Оценить сайт» в панели браузера). Это помогает другим людям находить наши инструменты! 😊 Также вы можете написать мне напрямую в Telegram: @avdeevrus Все доработки и улучшения по вашим пожеланиям делаю бесплатно! Благодарю за доверие и использование ToolFox! 🚀

      🔎Похожие инструменты

      ✍️

      Подпись на PDF

      Добавляйте текстовую подпись на PDF: ФИО, должность, реквизиты — выбор позиции, размера и страниц

      Перейти к инструменту →
      🔢

      Нумерация страниц PDF

      Добавляйте номера страниц на PDF: «1», «1 из 12», «Стр. 1» — выбор позиции, формата и стартового номера

      Перейти к инструменту →
      📷

      Конвертер JPG в PDF

      Конвертируйте JPG/JPEG-картинку в PDF-документ: сохраняем разрешение, реальный размер страницы, без потери качества

      Перейти к инструменту →
      🖼️

      Конвертер PNG в PDF

      Конвертируйте PNG-картинку в PDF без сжатия: текст и линии остаются резкими, прозрачный фон становится белым

      Перейти к инструменту →
      📝

      Конвертер Word в PDF

      Конвертируйте Word-документ (DOCX) в PDF: сохраняем шрифты, заголовки, таблицы, картинки, нумерацию страниц и оглавление

      Перейти к инструменту →
      📊

      Конвертер Excel в PDF

      Конвертируйте Excel-таблицу (XLSX) в PDF: каждый лист книги — отдельная страница, сохраняем формулы, форматирование, цвет ячеек и границы

      Перейти к инструменту →
      🎬

      Конвертер PowerPoint в PDF

      Конвертируйте презентацию PowerPoint (PPTX) в PDF: каждый слайд — отдельная страница, сохраняем шрифты, картинки, цвета и анимации (как статичные)

      Перейти к инструменту →
      🌐

      Конвертер HTML в PDF

      Конвертируйте HTML-файл (.html, .htm) в PDF: сохраняем встроенные стили, шрифты, картинки, таблицы, разметку

      Перейти к инструменту →