Извлечение Email
Извлечение email адресов из текста с поддержкой разных форматов
Извлечение email из текста — онлайн парсер адресов
Бесплатный инструмент находит все email-адреса в произвольном тексте: HTML-коде страницы, CSV-выгрузке из CRM, серверном логе, переписке в мессенджере, скопированной таблице. Распознаёт классические форматы вида ivanov@mail.ru, кириллические домены (.рф, .москва, .онлайн) и обфусцированные адреса «ivan [at] domain [dot] com».
Сразу показывает количество найденных, уникальных и отсеянных, выводит топ доменов с подсчётом адресов по каждому. Один клик по домену в списке — и в буфере обмена только адреса этого домена.
Обработка идёт целиком в браузере. Текст и адреса никуда не отправляются. Подходит для конфиденциальных списков клиентов, парсинга внутренних баз и подготовки данных под GDPR/152-ФЗ.
- Поддержка кириллических доменов (.рф, .москва, .онлайн)
- Распознавание обфусцированных адресов [at] / (at) / AT
- Отсев технических доменов (.test, .localhost, .invalid)
- Сортировка, удаление дубликатов, перевод в нижний регистр
- Экспорт в .txt, .csv и буфер обмена
- Топ доменов с фильтрацией по клику
- Загрузка файлов: TXT, HTML, CSV, LOG, JSON, XML
Как работает извлечение
Шаг 1 — деобфускация. Если включена опция «Распознавать [at] [dot]», парсер сначала заменяет конструкции вроде «ivan [at] domain [dot] com», «alice (at) gmail (dot) com», «bob AT example DOT com» на классическую форму. Это нужно при сборе адресов с сайтов, где владельцы прячут почту от спам-ботов.
Шаг 2 — Unicode-регулярка. Поиск идёт по паттерну, который принимает буквы любого алфавита (включая кириллицу), цифры, точки, дефисы, плюсы, подчёркивания и апострофы в локальной части. Домен обязан содержать хотя бы одну точку и буквенный TLD из двух или более символов.
Шаг 3 — фильтрация и дедупликация. Если включён отсев невалидных TLD — отбрасываются адреса с зонами .test, .example, .invalid, .localhost, .local, .internal, .lan, .home, .corp, .arpa (служебные по RFC 2606 и RFC 6761). Затем — приведение к нижнему регистру (опционально) и удаление дубликатов с сохранением одного экземпляра.
Шаг 4 — сортировка и группировка. Итоговый список сортируется по алфавиту (опционально) и группируется по доменам — этот блок виден прямо под полем вывода.
Зачем нужен парсер email
Email-маркетинг. Очистка рассылочной базы перед запуском в Unisender, Mailchimp, GetResponse: удаление дубликатов, приведение к одному регистру, отбраковка очевидно невалидных адресов. Один такой проход спасает репутацию домена от попадания в спам.
Парсинг и аналитика. Извлечение контактов со скопированной HTML-страницы (например, разделы «Контакты» или «Команда»), из подписей в массиве писем, из выгрузки заявок с лендинга, из логов веб-сервера или биллинга.
B2B-продажи. Сбор контактов потенциальных клиентов из публичных источников: каталогов компаний, профессиональных форумов, экспортов из CRM, текстовых файлов от партнёров — с последующим импортом в Pipedrive, Битрикс24, AmoCRM.
Поддержка пользователей. Поиск всех адресов из тикета или цепочки писем, чтобы отправить рассылку всем участникам. Сбор контактов команды разработки из git-логов и issue-трекеров.
Пример: чистка партнёрской базы перед рассылкой
Маркетолог получил от партнёра CSV-выгрузку на 12 000 строк с email вперемешку с именами, должностями, телефонами и заметками. В выгрузке есть тестовые записи admin@localhost, дубли в разном регистре (Ivan@Mail.Ru и ivan@mail.ru) и часть адресов записана как «ivan [at] company [dot] ru», потому что выгружали со страницы команды.
Загружает CSV-файл в инструмент кнопкой «Загрузить файл» — текст 4,3 МБ читается за полсекунды.
Опции: «Распознавать [at]» включена → парсер деобфусцирует ~870 адресов. «Отсеивать невалидные домены» включена → отбрасывает 14 записей с .localhost и .test.
Парсер находит 12 432 совпадения. После приведения к нижнему регистру и дедупа остаётся 9 847 уникальных адресов.
В блоке «Топ доменов» видно: yandex.ru — 2 451, mail.ru — 1 980, gmail.com — 1 745, corporate.ru — 612, ещё 47 доменов. Один клик по corporate.ru — список из 612 корпоративных адресов уже в буфере.
Кнопка «.csv» — скачивается файл `emails-1717000000.csv` с заголовком `email` и одной колонкой. Файл готов к импорту в Unisender.
Из 12 000 «грязных» строк за 30 секунд получен файл на 9 847 уникальных адресов без дублей и технических записей. Параллельно — список 612 корпоративных контактов для отдельной B2B-цепочки. Ручная чистка в Excel заняла бы 4–6 часов.
Знаете ли вы?
Ежедневно в мире отправляется около 347 миллиардов email (Statista, 2024). 85% — спам и автоматические уведомления. На один человеческий email приходится 6–7 машинных.
Стандарт RFC 5321 разрешает до 64 символов в локальной части и до 253 в полном адресе. Минимально возможный реальный email — 6 символов: a@b.cc. Большинство сервисов на практике ограничивают 254 символами.
С 2010 года ICANN разрешает интернационализированные доменные имена (IDN). Email вида почта@яндекс.рф технически валиден по RFC 6532. На практике поддержка зависит от почтового провайдера — Яндекс и Mail.ru работают, Gmail требует Punycode.
В типовой партнёрской выгрузке 15–25% адресов невалидны: опечатки (gmial.com вместо gmail.com), забытые ящики, временные адреса с 10minutemail. Чистка перед рассылкой снижает bounce rate с 12% до 1–2%.
Bounce rate выше 5% снижает репутацию отправителя у почтовиков. Mail.ru и Яндекс начинают отправлять письма в спам автоматически. Восстановление репутации — 30–90 дней.
Обфускация email через [at] / (at) появилась в 1990-х как защита от спам-ботов. Современные парсеры (включая этот) деобфусцируют такие записи за пару миллисекунд — техника устарела. Эффективнее использовать форму обратной связи или JavaScript-рендеринг.
Какие форматы распознаёт парсер
| Что в тексте | Распознаётся как | Опции, которые нужны |
|---|---|---|
| ivanov@mail.ru | ivanov@mail.ru | — |
| User@Mail.RU | user@mail.ru | В нижний регистр |
| почта@яндекс.рф | почта@яндекс.рф | — |
| plus+sign@gmail.com | plus+sign@gmail.com | — |
| ivan [at] mail [dot] ru | ivan@mail.ru | Распознавать [at] |
| alice (at) gmail (dot) com | alice@gmail.com | Распознавать [at] |
| bob AT company DOT ru | bob@company.ru | Распознавать [at] |
| test@test.test | — | Отсеяно фильтром невалидных |
| admin@localhost | — | Нет TLD после точки |
Совет
Извлечение синтаксически корректных адресов не равно их валидности. Парсер уберёт мусор и отсеет технические зоны, но не проверит, существует ли реально ящик. Для предрассылочной валидации (синтаксис, MX, одноразовые домены) воспользуйтесь калькулятором «Проверка email на валидность» — ссылка в блоке «Связанные инструменты» ниже.
Как пользоваться
Вставьте текст или загрузите файл
Скопируйте текст в левое поле или нажмите «Загрузить файл». Поддерживаются форматы .txt, .html, .csv, .log, .json, .xml. Размер файла — до 50 МБ.
Настройте обработку
Включите «Распознавать [at] [dot]», если в источнике есть обфусцированные адреса. Включите «Отсеивать невалидные домены», если вам не нужны .test и .localhost. Удаление дубликатов и приведение к нижнему регистру включены по умолчанию.
Заберите результат
Список появляется справа сразу — кнопку «Извлечь» жать не нужно. Сверху видно: всего найдено, уникальных, удалено дублей, отсеяно невалидных, число доменов. Под выводом — топ-10 доменов.
Экспортируйте
Кнопка «Копировать» — в буфер обмена через выбранный разделитель. «.txt» — текстовый файл с переводами строки. «.csv» — таблица с колонкой email для прямого импорта в Mailchimp, Unisender, AmoCRM.
Готовые примеры
📋 Текст с 5 email
«Пишите info@company.ru или sales@company.ru, ivan@gmail.com» → 3 уникальных адреса, 2 домена.
📄 CSV-выгрузка 500 строк
Партнёрский экспорт → 487 совпадений, 23 дубля, 6 невалидных → итог 458 уникальных адресов.
🌐 HTML страницы команды
Скопированный код раздела «Контакты» → 18 mailto-ссылок + 4 адреса из видимого текста = 22 адреса.
📜 Лог веб-сервера (10 МБ)
Apache access log → все email из URL-параметров регистрации и POST-данных за день. Обработка ≈ 4 секунды.
🛡️ Обфусцированные адреса
Текст «Свяжитесь: anna [at] design [dot] studio, lead (at) sales (dot) ru» → 2 чистых адреса.
Частые вопросы
Данные отправляются на сервер?
Распознаёт ли парсер кириллические домены?
Какие форматы обфускации распознаются?
Что значит «отсеять невалидные домены»?
Какой максимальный объём текста можно обработать?
Что делать с результатом, чтобы рассылка пришла на 99%+ адресов?
Почему нашлось меньше адресов, чем я ожидал?
Полезная информация
🔒 Полная конфиденциальность. Текст и адреса не покидают браузер — ничего не отправляется на сервер.
📊 Для маркетологов. Чистый список с отсевом технических доменов и удалением дублей снижает bounce rate в 4–6 раз и защищает репутацию домена-отправителя.
Связанные инструменты
Чтобы довести список до отправки, обычно нужны ещё пара шагов: