Распознавание текста (OCR)
Извлечение текста из изображений и PDF документов с поддержкой множества языков
OCR — распознавание текста с изображений и PDF онлайн
Онлайн инструмент для распознавания и извлечения текста из фотографий, сканов и PDF-документов. Два движка на выбор: быстрый (Tesseract) и точный (с поддержкой рукописного текста). Поддерживает русский, английский и 60+ языков. Файлы обрабатываются в браузере — не отправляются на сервер.
- Распознавание печатного текста на 60+ языках
- Поддержка форматов: JPG, PNG, BMP, TIFF, PDF
- Два движка: быстрый (Tesseract) и точный
- Обработка целиком в браузере — полная конфиденциальность
- Копирование распознанного текста в буфер обмена
- Drag & drop загрузка файлов
Как работает OCR
OCR (Optical Character Recognition) анализирует изображение в несколько этапов: предобработка (выравнивание, удаление шума, бинаризация), сегментация (выделение строк, слов, символов), распознавание (сопоставление с моделями символов) и постобработка (проверка по словарю, коррекция ошибок).
Точность зависит от качества изображения: чёткая печать на белом фоне — 98–99%. Фото под углом — 90–95%. Рукописный текст — 70–85%. Мелкий или размытый текст — 60–80%. Для лучших результатов используйте скан 300 DPI.
Когда OCR полезен
Оцифровка документов: договоры, чеки, паспорта — из бумаги в редактируемый текст. Извлечение данных из PDF-сканов: счета, накладные, акты. Перевод с фото: сфотографировал вывеску на иностранном языке → распознал → перевёл. Индексация: сделать текст в PDF-скане доступным для поиска.
Пример из жизни
Бухгалтер получил 50 сканированных счетов-фактур в PDF от поставщика. Нужно извлечь суммы и реквизиты для ввода в 1С.
Загрузил PDF-файл (скан 300 DPI, чёткая печать)
Движок Tesseract распознал текст за 3 секунды, точность 97%
Скопировал распознанный текст: номер счёта, дата, сумма, реквизиты
50 счетов обработаны за 15 минут вместо 3 часов ручного ввода. Ошибки: 2 из 50 (исправлены вручную за 2 минуты). Экономия — 2,5 часа рабочего времени.
Знаете ли вы?
Первый OCR-патент выдан в 1929 году Густаву Таушеку (Австрия). Первая коммерческая система — в 1965 году (IBM)
Tesseract — самый популярный open-source OCR-движок. Разработан HP в 1985, сейчас поддерживается Google
Современные OCR-системы распознают печатный текст с точностью 99,5% — лучше, чем средний человек при ручном наборе
Google Lens распознаёт текст в реальном времени через камеру смартфона — это OCR + AR + машинный перевод
Tesseract поддерживает 116 языков, включая иероглифические (китайский, японский) и арабскую вязь
OCR превращает скан в текст, уменьшая размер в 10–100 раз: изображение A4 300 DPI = 5 МБ, а текст той же страницы = 3 КБ
Точность OCR в зависимости от качества изображения
| Тип документа | Качество | Ожидаемая точность | Рекомендации |
|---|---|---|---|
| Скан 300 DPI, чёткая печать | Отличное | 98–99% | Идеальный вариант |
| Фото документа (ровно) | Хорошее | 95–97% | Хорошее освещение, параллельно |
| Фото под углом | Среднее | 85–92% | Выровняйте в редакторе |
| Мелкий шрифт (<8 pt) | Низкое | 70–85% | Увеличьте масштаб перед фото |
| Рукописный текст | Сложное | 60–80% | Используйте точный движок |
Важно знать
Для лучшей точности: снимайте документ параллельно (не под углом), при хорошем освещении, без теней и бликов. Разрешение скана — минимум 300 DPI. Если текст на цветном фоне — переведите в чёрно-белый перед распознаванием.
Как использовать Распознавание текста (OCR)
Шаг 1
Загрузите изображение или PDF: перетащите файл или нажмите кнопку выбора
Шаг 2
Выберите язык распознавания (русский, английский или другой)
Шаг 3
Нажмите «Распознать» — текст извлекается в браузере за несколько секунд
Шаг 4
Скопируйте распознанный текст в буфер обмена или скачайте как TXT-файл
Примеры использования
Скан договора (PDF)
300 DPI, чёткая печать → точность 99%. Весь текст включая реквизиты и подписи (как текст) распознан корректно
Фото чека из магазина
Камера смартфона, термопечать → точность 90–95%. Суммы и названия товаров распознаны, но мелкий шрифт внизу — с ошибками
Скриншот с текстом
Идеальное качество (пиксели, не сжатие) → точность 99,5%. Лучший сценарий для OCR
Фото книжной страницы
Хорошее освещение, страница ровная → 97%. Искривление страницы у корешка снижает точность до 85%
Рукописная записка
Разборчивый почерк → 70–80%. Неразборчивый → 40–60%. Для рукописного текста выбирайте «точный» движок
Часто задаваемые вопросы
Файлы отправляются на сервер?
Какой движок выбрать?
Можно ли распознать рукописный текст?
Максимальный размер файла?
Какое разрешение скана нужно?
Можно ли распознать таблицу?
Полезная информация
🔒 Полная конфиденциальность. Файлы обрабатываются в браузере — ни одного байта не отправляется на сервер. Безопасно для паспортов, договоров и финансовых документов.
⚡ Быстро и бесплатно. Распознавание занимает 2–10 секунд. Без регистрации, без ограничений на количество файлов.
Комментарии (1)
🔍Похожие инструменты
Определить CMS сайта
Определение системы управления контентом и технологий сайта
Проверка HTTP/2
Проверка поддержки протокола HTTP/2 на сайте
Проверка редиректов
Анализ цепочки редиректов и кодов ответа сервера (301, 302, 404)
Получение доменов из URL
Извлекайте доменные имена из списка URL-адресов
Генератор ЧПУ
Создание человеко-понятных URL адресов из русского текста
Подсчет ссылок
Анализ внутренних и внешних ссылок на странице с расчетом PageRank
Возраст домена
Определение возраста домена по дате регистрации через Whois
Whois домена
Получение информации о владельце домена, дате регистрации и DNS-серверах