Распознавание текста (OCR)
Извлечение текста из изображений и PDF документов с поддержкой множества языков
OCR онлайн: распознавание текста с изображений и PDF
Инструмент извлекает текст с фотографий, скриншотов, сканов и PDF-файлов прямо в браузере. Распознавание идёт через Tesseract.js — открытый OCR-движок Google, работающий локально без отправки файлов на сервер. Поддерживается 16 языков (русский, английский, немецкий, французский, испанский, итальянский, португальский, польский, украинский, турецкий, корейский, японский, упрощённый и традиционный китайский, арабский, хинди) и комбинации (например, «Русский + English»).
Для PDF с текстовым слоем используется быстрое извлечение через pdf.js (точность 100%). Для сканированных PDF и фотографий — полноценный OCR с прогрессом по страницам и совпадениям. Максимальный размер файла — 20 МБ, количество файлов не ограничено. Языковые модели скачиваются при первом запуске (5–20 МБ на язык) и кешируются в браузере.
- JPG, PNG, GIF, WebP, BMP, PDF — пакетная загрузка
- 16 языков + двуязычное распознавание
- Локально в браузере — файлы не уходят на сервер
- Прогресс с процентом и названием файла
- Скачивание отдельным .txt или объединённым файлом
Когда использовать OCR онлайн
Оцифровка документов: договоры, акты, счета, паспортные данные, медицинские справки. Распознанный текст можно отредактировать, перевести, отправить в CRM или поиск.
Извлечение цитат из книг и статей: фотография страницы → текст для конспекта, презентации или диплома. Сэкономит часы переписывания вручную.
Перевод вывесок, меню, инструкций в путешествии: загрузите фото, выберите язык оригинала — получите текст для копирования в Google Translate или DeepL.
Корпоративные задачи: распознавание чеков для отчётов, актов выполненных работ, инвойсов поставщиков. Бухгалтерия экономит 70–80% времени на ручном вводе.
Доступность: преобразование PDF-учебников и инструкций в редактируемый текст для слабовидящих и пользователей с экранными ридерами.
Точность OCR: от чего зависит и как улучшить
Базовая точность Tesseract на чистом печатном тексте — 95–99%. На рукописном — 30–60%. На размытых сканах с шумом — 60–85%. Калькулятор показывает оценку confidence для каждого файла.
Разрешение скана: минимум 300 DPI, оптимально 400–600 DPI. Сканы 150 DPI и фото с телефона при низком освещении дают точность 60–75%. Перед OCR можно увеличить контрастность в редакторе и выпрямить геометрию.
Выбор языка: для документов на двух языках используйте режим «Русский + English» — модели работают вместе. Если документ на одном языке — оставьте только его, точность будет выше на 5–10%.
Что плохо распознаётся: рукописный текст (особенно курсив), формулы и таблицы (структура теряется), декоративные шрифты, символы (кириллица + знаки валют, эмодзи, специальные знаки). Для рукописи используйте платные сервисы вроде Google Cloud Vision или Yandex SpeechKit.
Безопасность данных и конфиденциальность
Все файлы обрабатываются в браузере на вашем устройстве. Не загружаются на серверы Tesseract или ToolFox, не индексируются, не сохраняются в логах. Это критично для документов с персональными данными (паспорта, водительские права, медицинские справки) и коммерческой информации (договоры, счета).
Сами языковые модели Tesseract скачиваются с CDN unpkg.com один раз и кешируются в браузере. Они не передают обратно никаких данных — это статические бинарные файлы.
Если работаете с государственной или защищённой персональными данными информацией — этот инструмент удовлетворяет требованиям ФЗ-152 «О персональных данных» в части обработки на стороне клиента: данные субъекта не покидают его устройство.
Пример из жизни
Бухгалтер получил 50 сканированных счетов-фактур в PDF от поставщика. Нужно извлечь суммы и реквизиты для ввода в 1С.
Загрузил PDF-файл (скан 300 DPI, чёткая печать)
Движок Tesseract распознал текст за 3 секунды, точность 97%
Скопировал распознанный текст: номер счёта, дата, сумма, реквизиты
50 счетов обработаны за 15 минут вместо 3 часов ручного ввода. Ошибки: 2 из 50 (исправлены вручную за 2 минуты). Экономия — 2,5 часа рабочего времени.
Знаете ли вы?
Первый OCR-патент выдан в 1929 году Густаву Таушеку (Австрия). Первая коммерческая система — в 1965 году (IBM)
Tesseract — самый популярный open-source OCR-движок. Разработан HP в 1985, сейчас поддерживается Google
Современные OCR-системы распознают печатный текст с точностью 99,5% — лучше, чем средний человек при ручном наборе
Google Lens распознаёт текст в реальном времени через камеру смартфона — это OCR + AR + машинный перевод
Tesseract поддерживает 116 языков, включая иероглифические (китайский, японский) и арабскую вязь
OCR превращает скан в текст, уменьшая размер в 10–100 раз: изображение A4 300 DPI = 5 МБ, а текст той же страницы = 3 КБ
Точность OCR в зависимости от качества изображения
| Тип документа | Качество | Ожидаемая точность | Рекомендации |
|---|---|---|---|
| Скан 300 DPI, чёткая печать | Отличное | 98–99% | Идеальный вариант |
| Фото документа (ровно) | Хорошее | 95–97% | Хорошее освещение, параллельно |
| Фото под углом | Среднее | 85–92% | Выровняйте в редакторе |
| Мелкий шрифт (<8 pt) | Низкое | 70–85% | Увеличьте масштаб перед фото |
| Рукописный текст | Сложное | 60–80% | Используйте точный движок |
Для сканированных PDF
Если PDF создан сканированием бумаги, в нём нет текстового слоя и этот инструмент покажет ошибку. Используйте отдельный «OCR для PDF» либо конвертируйте PDF в JPG через «PDF → JPG» и загрузите картинки сюда.
Как использовать Распознавание текста (OCR)
Выберите язык распознавания
Для документов на двух языках — «Русский + English». Это влияет на точность.
Загрузите файлы
Перетащите JPG/PNG/PDF на зону загрузки или нажмите «Выбрать файлы». Можно сразу несколько.
Запустите распознавание
Нажмите «Распознать текст». При первом запуске модель скачается (5–20 МБ), дальше работа идёт мгновенно.
Скачайте результат
Каждый файл — отдельно или одним общим .txt. Точность каждого файла показывается рядом с результатом.
Примеры использования
📄 Договор PDF (3 стр)
Текстовый слой → извлечение за 1 сек, точность 100%. Готовый текст для CRM или поиска по содержимому.
📸 Фото страницы книги
JPG 4000×3000 → OCR ≈10 сек, точность 92–96%. Текст для конспекта или цитаты.
🧾 Чек из ресторана
Фото с телефона 1920×1080, низкий контраст → точность 75–85%. Достаточно для отчёта в бухгалтерию.
📋 Скан 5 страниц, 300 DPI
Пакетная обработка ~30 сек, объединённый файл с разделителями. Точность 96–99% на чистом тексте.
Часто задаваемые вопросы
Файлы и распознанный текст отправляются на сервер?
Какие языки поддерживаются и можно ли распознавать смешанные тексты?
Можно ли распознать рукописный текст?
Максимальный размер файла?
Какое разрешение скана нужно для хорошей точности?
Можно ли распознать таблицу?
Что значит «точность» в результатах?
PDF с фотографиями страниц не распознаётся — почему?
Полезная информация
Все вычисления в браузере через Tesseract.js (WebAssembly) — файлы не покидают устройство.
Поддерживается 16 языков и двуязычное распознавание (Русский + English).
PDF с текстовым слоем — извлечение за секунды (100% точность). Сканированные PDF — через «PDF → JPG» в этот OCR.
Языковые модели кешируются после первого скачивания — повторные запуски мгновенные.
Смежные инструменты для работы с PDF и изображениями
Если оцифровываете документы — пригодится полный комплекс инструментов для конвертации, OCR и обработки PDF.