🔍

Распознавание текста (OCR)

Извлечение текста из изображений и PDF документов с поддержкой множества языков

OCR — распознавание текста с изображений и PDF онлайн

Онлайн инструмент для распознавания и извлечения текста из фотографий, сканов и PDF-документов. Два движка на выбор: быстрый (Tesseract) и точный (с поддержкой рукописного текста). Поддерживает русский, английский и 60+ языков. Файлы обрабатываются в браузере — не отправляются на сервер.

  • Распознавание печатного текста на 60+ языках
  • Поддержка форматов: JPG, PNG, BMP, TIFF, PDF
  • Два движка: быстрый (Tesseract) и точный
  • Обработка целиком в браузере — полная конфиденциальность
  • Копирование распознанного текста в буфер обмена
  • Drag & drop загрузка файлов

Как работает OCR

OCR (Optical Character Recognition) анализирует изображение в несколько этапов: предобработка (выравнивание, удаление шума, бинаризация), сегментация (выделение строк, слов, символов), распознавание (сопоставление с моделями символов) и постобработка (проверка по словарю, коррекция ошибок).

Точность зависит от качества изображения: чёткая печать на белом фоне — 98–99%. Фото под углом — 90–95%. Рукописный текст — 70–85%. Мелкий или размытый текст — 60–80%. Для лучших результатов используйте скан 300 DPI.

    Когда OCR полезен

    Оцифровка документов: договоры, чеки, паспорта — из бумаги в редактируемый текст. Извлечение данных из PDF-сканов: счета, накладные, акты. Перевод с фото: сфотографировал вывеску на иностранном языке → распознал → перевёл. Индексация: сделать текст в PDF-скане доступным для поиска.

      💡

      Пример из жизни

      Бухгалтер получил 50 сканированных счетов-фактур в PDF от поставщика. Нужно извлечь суммы и реквизиты для ввода в 1С.

      1

      Загрузил PDF-файл (скан 300 DPI, чёткая печать)

      2

      Движок Tesseract распознал текст за 3 секунды, точность 97%

      3

      Скопировал распознанный текст: номер счёта, дата, сумма, реквизиты

      50 счетов обработаны за 15 минут вместо 3 часов ручного ввода. Ошибки: 2 из 50 (исправлены вручную за 2 минуты). Экономия — 2,5 часа рабочего времени.

      🧠

      Знаете ли вы?

      📜

      Первый OCR-патент выдан в 1929 году Густаву Таушеку (Австрия). Первая коммерческая система — в 1965 году (IBM)

      🔤

      Tesseract — самый популярный open-source OCR-движок. Разработан HP в 1985, сейчас поддерживается Google

      📊

      Современные OCR-системы распознают печатный текст с точностью 99,5% — лучше, чем средний человек при ручном наборе

      📱

      Google Lens распознаёт текст в реальном времени через камеру смартфона — это OCR + AR + машинный перевод

      🌍

      Tesseract поддерживает 116 языков, включая иероглифические (китайский, японский) и арабскую вязь

      💾

      OCR превращает скан в текст, уменьшая размер в 10–100 раз: изображение A4 300 DPI = 5 МБ, а текст той же страницы = 3 КБ

      Точность OCR в зависимости от качества изображения

      Тип документаКачествоОжидаемая точностьРекомендации
      Скан 300 DPI, чёткая печатьОтличное98–99%Идеальный вариант
      Фото документа (ровно)Хорошее95–97%Хорошее освещение, параллельно
      Фото под угломСреднее85–92%Выровняйте в редакторе
      Мелкий шрифт (<8 pt)Низкое70–85%Увеличьте масштаб перед фото
      Рукописный текстСложное60–80%Используйте точный движок
      💡

      Важно знать

      Для лучшей точности: снимайте документ параллельно (не под углом), при хорошем освещении, без теней и бликов. Разрешение скана — минимум 300 DPI. Если текст на цветном фоне — переведите в чёрно-белый перед распознаванием.

      Как использовать Распознавание текста (OCR)

      1

      Шаг 1

      Загрузите изображение или PDF: перетащите файл или нажмите кнопку выбора

      2

      Шаг 2

      Выберите язык распознавания (русский, английский или другой)

      3

      Шаг 3

      Нажмите «Распознать» — текст извлекается в браузере за несколько секунд

      4

      Шаг 4

      Скопируйте распознанный текст в буфер обмена или скачайте как TXT-файл

      Примеры использования

      Скан договора (PDF)

      300 DPI, чёткая печать → точность 99%. Весь текст включая реквизиты и подписи (как текст) распознан корректно

      Фото чека из магазина

      Камера смартфона, термопечать → точность 90–95%. Суммы и названия товаров распознаны, но мелкий шрифт внизу — с ошибками

      Скриншот с текстом

      Идеальное качество (пиксели, не сжатие) → точность 99,5%. Лучший сценарий для OCR

      Фото книжной страницы

      Хорошее освещение, страница ровная → 97%. Искривление страницы у корешка снижает точность до 85%

      Рукописная записка

      Разборчивый почерк → 70–80%. Неразборчивый → 40–60%. Для рукописного текста выбирайте «точный» движок

      Часто задаваемые вопросы

      Файлы отправляются на сервер?
      Нет. Обработка выполняется целиком в браузере через JavaScript (Tesseract.js). Ваши документы не покидают устройство. Это критично для конфиденциальных данных: паспорта, договоры, финансовые документы.
      Какой движок выбрать?
      Быстрый (Tesseract): для чёткой печати, сканов, скриншотов — точность 95–99%, скорость 2–5 сек. Точный: для сложных случаев — фото под углом, рукописный текст, низкое качество. Медленнее, но точнее.
      Можно ли распознать рукописный текст?
      Печатный — да, с высокой точностью. Рукописный — частично: разборчивый почерк распознаётся на 70–80%, неразборчивый — значительно хуже. Для рукописного используйте «точный» движок.
      Максимальный размер файла?
      Зависит от памяти браузера. На практике: изображения до 20 МБ и PDF до 50 страниц обрабатываются без проблем. Для больших файлов разбейте на части.
      Какое разрешение скана нужно?
      Минимум 200 DPI для крупного текста, 300 DPI — оптимум для документов, 600 DPI — для мелкого шрифта. Фото смартфоном: 12 МП достаточно, если снимаете ровно и с хорошим освещением.
      Можно ли распознать таблицу?
      Текст из ячеек распознаётся, но структура таблицы (строки, столбцы) может потеряться. Для таблиц лучше использовать специализированные инструменты или вручную восстановить структуру после распознавания.

      Полезная информация

      🔒 Полная конфиденциальность. Файлы обрабатываются в браузере — ни одного байта не отправляется на сервер. Безопасно для паспортов, договоров и финансовых документов.

      ⚡ Быстро и бесплатно. Распознавание занимает 2–10 секунд. Без регистрации, без ограничений на количество файлов.

      Комментарии (1)

      Был ли полезен этот инструмент?
      Руслан Авдеев (автор проекта)1 янв. 2024 г., 00:00
      🎉 Спасибо, что используете наши инструменты! Все инструменты на ToolFox полностью бесплатны и постоянно улучшаются. 📝 Пожалуйста, оставляйте комментарии: - Если инструмент работает некорректно - Если есть идеи по улучшению - Поделитесь своим опытом использования 👍 Ставьте лайки/дизлайки - это помогает мне понять, какие инструменты нуждаются в доработке. Я обновляю сайт каждую неделю на основе вашей обратной связи. ⭐ Если вам нравится ToolFox — буду благодарен за отзыв о сайте в Яндекс.Браузере (нажмите на ⋮ → «Оценить сайт» в панели браузера). Это помогает другим людям находить наши инструменты! 😊 Также вы можете написать мне напрямую в Telegram: @avdeevrus Все доработки и улучшения по вашим пожеланиям делаю бесплатно! Благодарю за доверие и использование ToolFox! 🚀