🔍

Распознавание текста (OCR)

Извлечение текста из изображений и PDF документов с поддержкой множества языков

Язык распознавания

При первом запуске модель скачивается (5–20 МБ). Дальше — мгновенно.

Объединить результаты в один файл

Иначе каждый файл — отдельный .txt

Перетащите файлы или выберите

JPG · PNG · GIF · WebP · BMP · PDF

Макс. размер файла — 20 МБ

Смежные инструменты

→ OCR для сканированных PDF → PDF → текст (только текстовый слой)→ PDF → Word (.docx)→ PDF → JPG (для последующего OCR)→ Сжатие PDF → Объединение PDF

OCR онлайн: распознавание текста с изображений и PDF

Инструмент извлекает текст с фотографий, скриншотов, сканов и PDF-файлов прямо в браузере. Распознавание идёт через Tesseract.js — открытый OCR-движок Google, работающий локально без отправки файлов на сервер. Поддерживается 16 языков (русский, английский, немецкий, французский, испанский, итальянский, португальский, польский, украинский, турецкий, корейский, японский, упрощённый и традиционный китайский, арабский, хинди) и комбинации (например, «Русский + English»).

Для PDF с текстовым слоем используется быстрое извлечение через pdf.js (точность 100%). Для сканированных PDF и фотографий — полноценный OCR с прогрессом по страницам и совпадениям. Максимальный размер файла — 20 МБ, количество файлов не ограничено. Языковые модели скачиваются при первом запуске (5–20 МБ на язык) и кешируются в браузере.

JPG, PNG, GIF, WebP, BMP, PDF — пакетная загрузка
16 языков + двуязычное распознавание
Локально в браузере — файлы не уходят на сервер
Прогресс с процентом и названием файла
Скачивание отдельным .txt или объединённым файлом

Когда использовать OCR онлайн

Оцифровка документов: договоры, акты, счета, паспортные данные, медицинские справки. Распознанный текст можно отредактировать, перевести, отправить в CRM или поиск.

Извлечение цитат из книг и статей: фотография страницы → текст для конспекта, презентации или диплома. Сэкономит часы переписывания вручную.

Перевод вывесок, меню, инструкций в путешествии: загрузите фото, выберите язык оригинала — получите текст для копирования в Google Translate или DeepL.

Корпоративные задачи: распознавание чеков для отчётов, актов выполненных работ, инвойсов поставщиков. Бухгалтерия экономит 70–80% времени на ручном вводе.

Доступность: преобразование PDF-учебников и инструкций в редактируемый текст для слабовидящих и пользователей с экранными ридерами.

Точность OCR: от чего зависит и как улучшить

Базовая точность Tesseract на чистом печатном тексте — 95–99%. На рукописном — 30–60%. На размытых сканах с шумом — 60–85%. Калькулятор показывает оценку confidence для каждого файла.

Разрешение скана: минимум 300 DPI, оптимально 400–600 DPI. Сканы 150 DPI и фото с телефона при низком освещении дают точность 60–75%. Перед OCR можно увеличить контрастность в редакторе и выпрямить геометрию.

Выбор языка: для документов на двух языках используйте режим «Русский + English» — модели работают вместе. Если документ на одном языке — оставьте только его, точность будет выше на 5–10%.

Что плохо распознаётся: рукописный текст (особенно курсив), формулы и таблицы (структура теряется), декоративные шрифты, символы (кириллица + знаки валют, эмодзи, специальные знаки). Для рукописи используйте платные сервисы вроде Google Cloud Vision или Yandex SpeechKit.

Безопасность данных и конфиденциальность

Все файлы обрабатываются в браузере на вашем устройстве. Не загружаются на серверы Tesseract или ToolFox, не индексируются, не сохраняются в логах. Это критично для документов с персональными данными (паспорта, водительские права, медицинские справки) и коммерческой информации (договоры, счета).

Сами языковые модели Tesseract скачиваются с CDN unpkg.com один раз и кешируются в браузере. Они не передают обратно никаких данных — это статические бинарные файлы.

Если работаете с государственной или защищённой персональными данными информацией — этот инструмент удовлетворяет требованиям ФЗ-152 «О персональных данных» в части обработки на стороне клиента: данные субъекта не покидают его устройство.

💡

Пример из жизни

Бухгалтер получил 50 сканированных счетов-фактур в PDF от поставщика. Нужно извлечь суммы и реквизиты для ввода в 1С.

Загрузил PDF-файл (скан 300 DPI, чёткая печать)

Движок Tesseract распознал текст за 3 секунды, точность 97%

Скопировал распознанный текст: номер счёта, дата, сумма, реквизиты

✅

50 счетов обработаны за 15 минут вместо 3 часов ручного ввода. Ошибки: 2 из 50 (исправлены вручную за 2 минуты). Экономия — 2,5 часа рабочего времени.

🧠

Знаете ли вы?

📜

Первый OCR-патент выдан в 1929 году Густаву Таушеку (Австрия). Первая коммерческая система — в 1965 году (IBM)

🔤

Tesseract — самый популярный open-source OCR-движок. Разработан HP в 1985, сейчас поддерживается Google

📊

Современные OCR-системы распознают печатный текст с точностью 99,5% — лучше, чем средний человек при ручном наборе

📱

Google Lens распознаёт текст в реальном времени через камеру смартфона — это OCR + AR + машинный перевод

🌍

Tesseract поддерживает 116 языков, включая иероглифические (китайский, японский) и арабскую вязь

💾

OCR превращает скан в текст, уменьшая размер в 10–100 раз: изображение A4 300 DPI = 5 МБ, а текст той же страницы = 3 КБ

Точность OCR в зависимости от качества изображения

Тип документа	Качество	Ожидаемая точность	Рекомендации
Скан 300 DPI, чёткая печать	Отличное	98–99%	Идеальный вариант
Фото документа (ровно)	Хорошее	95–97%	Хорошее освещение, параллельно
Фото под углом	Среднее	85–92%	Выровняйте в редакторе
Мелкий шрифт (<8 pt)	Низкое	70–85%	Увеличьте масштаб перед фото
Рукописный текст	Сложное	60–80%	Используйте точный движок

ℹ️

Для сканированных PDF

Если PDF создан сканированием бумаги, в нём нет текстового слоя и этот инструмент покажет ошибку. Используйте отдельный «OCR для PDF» либо конвертируйте PDF в JPG через «PDF → JPG» и загрузите картинки сюда.

Как использовать Распознавание текста (OCR)

Выберите язык распознавания

Для документов на двух языках — «Русский + English». Это влияет на точность.

Загрузите файлы

Перетащите JPG/PNG/PDF на зону загрузки или нажмите «Выбрать файлы». Можно сразу несколько.

Запустите распознавание

Нажмите «Распознать текст». При первом запуске модель скачается (5–20 МБ), дальше работа идёт мгновенно.

Скачайте результат

Каждый файл — отдельно или одним общим .txt. Точность каждого файла показывается рядом с результатом.

Примеры использования

📄 Договор PDF (3 стр)

Текстовый слой → извлечение за 1 сек, точность 100%. Готовый текст для CRM или поиска по содержимому.

📸 Фото страницы книги

JPG 4000×3000 → OCR ≈10 сек, точность 92–96%. Текст для конспекта или цитаты.

🧾 Чек из ресторана

Фото с телефона 1920×1080, низкий контраст → точность 75–85%. Достаточно для отчёта в бухгалтерию.

📋 Скан 5 страниц, 300 DPI

Пакетная обработка ~30 сек, объединённый файл с разделителями. Точность 96–99% на чистом тексте.

Часто задаваемые вопросы

Файлы и распознанный текст отправляются на сервер?

Нет. Tesseract.js работает целиком в браузере через WebAssembly. Файлы не загружаются на сервер ToolFox или третьих сторон. Языковые модели скачиваются один раз с CDN unpkg.com и кешируются локально. Подходит для документов с персональными данными.

Какие языки поддерживаются и можно ли распознавать смешанные тексты?

16 языков: русский, английский, немецкий, французский, испанский, итальянский, португальский, польский, украинский, турецкий, корейский, японский, китайский (упрощённый и традиционный), арабский, хинди. Для смешанных документов выберите «Русский + English» — модели работают параллельно.

Можно ли распознать рукописный текст?

Tesseract — это OCR для печатного текста. Рукопись распознаётся плохо: 30–60% точности. Для рукописи нужны нейросетевые сервисы (Google Cloud Vision, Yandex SpeechKit). Каллиграфию и печатные буквы (заглавными) Tesseract распознаёт лучше — 70–85%.

Максимальный размер файла?

20 МБ на один файл. Для PDF большего размера сначала сожмите его (есть отдельный инструмент «Сжатие PDF») или разбейте на части. Количество файлов в одной обработке не ограничено.

Какое разрешение скана нужно для хорошей точности?

Минимум 300 DPI, оптимально 400–600 DPI. Фото с современного смартфона (12 МП и выше) при хорошем освещении подходит. Старые сканы 100–150 DPI дают 60–75% точности — лучше пересканировать.

Можно ли распознать таблицу?

Tesseract распознаёт текст в ячейках, но **структуру таблицы не сохраняет** — все ячейки идут в одну строку. Для таблиц лучше использовать Excel или специализированные инструменты (Tabula, Adobe Acrobat). После OCR можно вручную восстановить структуру.

Что значит «точность» в результатах?

Это среднее значение confidence — внутренний показатель Tesseract от 0 до 100. 90+ — отличное распознавание, 70–90 — есть мелкие ошибки, ниже 70 — много опечаток (стоит улучшить качество скана). На confidence влияет шрифт, контраст, размытие и наличие посторонних элементов.

PDF с фотографиями страниц не распознаётся — почему?

Если PDF создан сканированием бумажного документа, в нём нет текстового слоя — только изображения. Для таких файлов используйте инструмент «PDF → JPG», получите картинки страниц и загрузите их обратно в этот OCR. Или используйте отдельный «OCR для PDF».

Полезная информация

Все вычисления в браузере через Tesseract.js (WebAssembly) — файлы не покидают устройство.

Поддерживается 16 языков и двуязычное распознавание (Русский + English).

PDF с текстовым слоем — извлечение за секунды (100% точность). Сканированные PDF — через «PDF → JPG» в этот OCR.

Языковые модели кешируются после первого скачивания — повторные запуски мгновенные.

Смежные инструменты для работы с PDF и изображениями

Если оцифровываете документы — пригодится полный комплекс инструментов для конвертации, OCR и обработки PDF.

OCR для сканированных PDF

Специализированный OCR для многостраничных PDF без текстового слоя — за один проход.

PDF → текст

Быстрое извлечение текстового слоя из PDF — для документов с уже встроенным текстом.

PDF → Word (.docx)

Конвертация PDF в редактируемый документ Word с сохранением форматирования.

PDF → JPG

Сохранение каждой страницы PDF как картинки — для последующего OCR или вставки в документы.

Сжатие PDF

Уменьшение размера PDF без потери качества — если файл больше 20 МБ для OCR.

Объединение PDF

Склейка нескольких PDF в один документ — удобно перед OCR пакета файлов.

🎉 Спасибо, что используете наши инструменты! Все инструменты на ToolFox полностью бесплатны и постоянно улучшаются. 📝 Пожалуйста, оставляйте комментарии: - Если инструмент работает некорректно - Если есть идеи по улучшению - Поделитесь своим опытом использования 👍 Ставьте лайки/дизлайки - это помогает мне понять, какие инструменты нуждаются в доработке. Я обновляю сайт каждую неделю на основе вашей обратной связи. ⭐ Если вам нравится ToolFox — буду благодарен за отзыв о сайте в Яндекс.Браузере (нажмите на ⋮ → «Оценить сайт» в панели браузера). Это помогает другим людям находить наши инструменты! 😊 Также вы можете написать мне напрямую в Telegram: @avdeevrus Все доработки и улучшения по вашим пожеланиям делаю бесплатно! Благодарю за доверие и использование ToolFox! 🚀

Распознавание текста (OCR)

Смежные инструменты

OCR онлайн: распознавание текста с изображений и PDF

Когда использовать OCR онлайн

Точность OCR: от чего зависит и как улучшить

Безопасность данных и конфиденциальность

Пример из жизни

Знаете ли вы?

Точность OCR в зависимости от качества изображения

Для сканированных PDF

Как использовать Распознавание текста (OCR)

Выберите язык распознавания

Загрузите файлы

Запустите распознавание

Скачайте результат

Примеры использования

📄 Договор PDF (3 стр)

📸 Фото страницы книги

🧾 Чек из ресторана

📋 Скан 5 страниц, 300 DPI

Часто задаваемые вопросы

Полезная информация

Смежные инструменты для работы с PDF и изображениями

Комментарии

Смежные инструменты