Перейти к содержимому
📧

Извлечение Email

Извлечение email адресов из текста с поддержкой разных форматов

Извлечение email из текста — онлайн парсер адресов

Бесплатный инструмент находит все email-адреса в произвольном тексте: HTML-коде страницы, CSV-выгрузке из CRM, серверном логе, переписке в мессенджере, скопированной таблице. Распознаёт классические форматы вида ivanov@mail.ru, кириллические домены (.рф, .москва, .онлайн) и обфусцированные адреса «ivan [at] domain [dot] com».

Сразу показывает количество найденных, уникальных и отсеянных, выводит топ доменов с подсчётом адресов по каждому. Один клик по домену в списке — и в буфере обмена только адреса этого домена.

Обработка идёт целиком в браузере. Текст и адреса никуда не отправляются. Подходит для конфиденциальных списков клиентов, парсинга внутренних баз и подготовки данных под GDPR/152-ФЗ.

  • Поддержка кириллических доменов (.рф, .москва, .онлайн)
  • Распознавание обфусцированных адресов [at] / (at) / AT
  • Отсев технических доменов (.test, .localhost, .invalid)
  • Сортировка, удаление дубликатов, перевод в нижний регистр
  • Экспорт в .txt, .csv и буфер обмена
  • Топ доменов с фильтрацией по клику
  • Загрузка файлов: TXT, HTML, CSV, LOG, JSON, XML

Как работает извлечение

Шаг 1 — деобфускация. Если включена опция «Распознавать [at] [dot]», парсер сначала заменяет конструкции вроде «ivan [at] domain [dot] com», «alice (at) gmail (dot) com», «bob AT example DOT com» на классическую форму. Это нужно при сборе адресов с сайтов, где владельцы прячут почту от спам-ботов.

Шаг 2 — Unicode-регулярка. Поиск идёт по паттерну, который принимает буквы любого алфавита (включая кириллицу), цифры, точки, дефисы, плюсы, подчёркивания и апострофы в локальной части. Домен обязан содержать хотя бы одну точку и буквенный TLD из двух или более символов.

Шаг 3 — фильтрация и дедупликация. Если включён отсев невалидных TLD — отбрасываются адреса с зонами .test, .example, .invalid, .localhost, .local, .internal, .lan, .home, .corp, .arpa (служебные по RFC 2606 и RFC 6761). Затем — приведение к нижнему регистру (опционально) и удаление дубликатов с сохранением одного экземпляра.

Шаг 4 — сортировка и группировка. Итоговый список сортируется по алфавиту (опционально) и группируется по доменам — этот блок виден прямо под полем вывода.

Зачем нужен парсер email

Email-маркетинг. Очистка рассылочной базы перед запуском в Unisender, Mailchimp, GetResponse: удаление дубликатов, приведение к одному регистру, отбраковка очевидно невалидных адресов. Один такой проход спасает репутацию домена от попадания в спам.

Парсинг и аналитика. Извлечение контактов со скопированной HTML-страницы (например, разделы «Контакты» или «Команда»), из подписей в массиве писем, из выгрузки заявок с лендинга, из логов веб-сервера или биллинга.

B2B-продажи. Сбор контактов потенциальных клиентов из публичных источников: каталогов компаний, профессиональных форумов, экспортов из CRM, текстовых файлов от партнёров — с последующим импортом в Pipedrive, Битрикс24, AmoCRM.

Поддержка пользователей. Поиск всех адресов из тикета или цепочки писем, чтобы отправить рассылку всем участникам. Сбор контактов команды разработки из git-логов и issue-трекеров.

📬

Пример: чистка партнёрской базы перед рассылкой

Маркетолог получил от партнёра CSV-выгрузку на 12 000 строк с email вперемешку с именами, должностями, телефонами и заметками. В выгрузке есть тестовые записи admin@localhost, дубли в разном регистре (Ivan@Mail.Ru и ivan@mail.ru) и часть адресов записана как «ivan [at] company [dot] ru», потому что выгружали со страницы команды.

1

Загружает CSV-файл в инструмент кнопкой «Загрузить файл» — текст 4,3 МБ читается за полсекунды.

2

Опции: «Распознавать [at]» включена → парсер деобфусцирует ~870 адресов. «Отсеивать невалидные домены» включена → отбрасывает 14 записей с .localhost и .test.

3

Парсер находит 12 432 совпадения. После приведения к нижнему регистру и дедупа остаётся 9 847 уникальных адресов.

4

В блоке «Топ доменов» видно: yandex.ru — 2 451, mail.ru — 1 980, gmail.com — 1 745, corporate.ru — 612, ещё 47 доменов. Один клик по corporate.ru — список из 612 корпоративных адресов уже в буфере.

5

Кнопка «.csv» — скачивается файл `emails-1717000000.csv` с заголовком `email` и одной колонкой. Файл готов к импорту в Unisender.

Из 12 000 «грязных» строк за 30 секунд получен файл на 9 847 уникальных адресов без дублей и технических записей. Параллельно — список 612 корпоративных контактов для отдельной B2B-цепочки. Ручная чистка в Excel заняла бы 4–6 часов.

🧠

Знаете ли вы?

📧

Ежедневно в мире отправляется около 347 миллиардов email (Statista, 2024). 85% — спам и автоматические уведомления. На один человеческий email приходится 6–7 машинных.

🔤

Стандарт RFC 5321 разрешает до 64 символов в локальной части и до 253 в полном адресе. Минимально возможный реальный email — 6 символов: a@b.cc. Большинство сервисов на практике ограничивают 254 символами.

🇷🇺

С 2010 года ICANN разрешает интернационализированные доменные имена (IDN). Email вида почта@яндекс.рф технически валиден по RFC 6532. На практике поддержка зависит от почтового провайдера — Яндекс и Mail.ru работают, Gmail требует Punycode.

📊

В типовой партнёрской выгрузке 15–25% адресов невалидны: опечатки (gmial.com вместо gmail.com), забытые ящики, временные адреса с 10minutemail. Чистка перед рассылкой снижает bounce rate с 12% до 1–2%.

🛡️

Bounce rate выше 5% снижает репутацию отправителя у почтовиков. Mail.ru и Яндекс начинают отправлять письма в спам автоматически. Восстановление репутации — 30–90 дней.

🔍

Обфускация email через [at] / (at) появилась в 1990-х как защита от спам-ботов. Современные парсеры (включая этот) деобфусцируют такие записи за пару миллисекунд — техника устарела. Эффективнее использовать форму обратной связи или JavaScript-рендеринг.

Какие форматы распознаёт парсер

Что в текстеРаспознаётся какОпции, которые нужны
ivanov@mail.ruivanov@mail.ru
User@Mail.RUuser@mail.ruВ нижний регистр
почта@яндекс.рфпочта@яндекс.рф
plus+sign@gmail.complus+sign@gmail.com
ivan [at] mail [dot] ruivan@mail.ruРаспознавать [at]
alice (at) gmail (dot) comalice@gmail.comРаспознавать [at]
bob AT company DOT rubob@company.ruРаспознавать [at]
test@test.testОтсеяно фильтром невалидных
admin@localhostНет TLD после точки
💡

Совет

Извлечение синтаксически корректных адресов не равно их валидности. Парсер уберёт мусор и отсеет технические зоны, но не проверит, существует ли реально ящик. Для предрассылочной валидации (синтаксис, MX, одноразовые домены) воспользуйтесь калькулятором «Проверка email на валидность» — ссылка в блоке «Связанные инструменты» ниже.

Как пользоваться

1

Вставьте текст или загрузите файл

Скопируйте текст в левое поле или нажмите «Загрузить файл». Поддерживаются форматы .txt, .html, .csv, .log, .json, .xml. Размер файла — до 50 МБ.

2

Настройте обработку

Включите «Распознавать [at] [dot]», если в источнике есть обфусцированные адреса. Включите «Отсеивать невалидные домены», если вам не нужны .test и .localhost. Удаление дубликатов и приведение к нижнему регистру включены по умолчанию.

3

Заберите результат

Список появляется справа сразу — кнопку «Извлечь» жать не нужно. Сверху видно: всего найдено, уникальных, удалено дублей, отсеяно невалидных, число доменов. Под выводом — топ-10 доменов.

4

Экспортируйте

Кнопка «Копировать» — в буфер обмена через выбранный разделитель. «.txt» — текстовый файл с переводами строки. «.csv» — таблица с колонкой email для прямого импорта в Mailchimp, Unisender, AmoCRM.

Готовые примеры

📋 Текст с 5 email

«Пишите info@company.ru или sales@company.ru, ivan@gmail.com» → 3 уникальных адреса, 2 домена.

📄 CSV-выгрузка 500 строк

Партнёрский экспорт → 487 совпадений, 23 дубля, 6 невалидных → итог 458 уникальных адресов.

🌐 HTML страницы команды

Скопированный код раздела «Контакты» → 18 mailto-ссылок + 4 адреса из видимого текста = 22 адреса.

📜 Лог веб-сервера (10 МБ)

Apache access log → все email из URL-параметров регистрации и POST-данных за день. Обработка ≈ 4 секунды.

🛡️ Обфусцированные адреса

Текст «Свяжитесь: anna [at] design [dot] studio, lead (at) sales (dot) ru» → 2 чистых адреса.

Частые вопросы

Данные отправляются на сервер?
Нет. Текст обрабатывается JavaScript прямо в браузере. Email-адреса, файлы, имена доменов — ничего не передаётся в сеть. Это можно проверить в инструментах разработчика: вкладка Network остаётся пустой при работе с инструментом.
Распознаёт ли парсер кириллические домены?
Да. Адреса вида почта@яндекс.рф, info@президент.россия, support@домен.москва находятся благодаря Unicode-регулярке. Для отправки писем на такие адреса нужен почтовый провайдер с поддержкой UTF-8 (Яндекс, Mail.ru — поддерживают; Gmail — требует Punycode-форму).
Какие форматы обфускации распознаются?
С включённой опцией «Распознавать [at] [dot]» — варианты вида user [at] domain [dot] com, user (at) domain (dot) com, user {at} domain {dot} com, user [собака] domain [точка] com, а также фразы с пробелами user AT domain DOT com (только в верхнем регистре, чтобы не превратить слова "at" и "dot" из обычного текста в @ и .). Сложная обфускация (JavaScript-рендеринг, изображения, base64) не распознаётся — она требует браузерного рендера.
Что значит «отсеять невалидные домены»?
Парсер отбрасывает адреса с зарезервированными по RFC 2606 и RFC 6761 TLD: .test, .example, .invalid, .localhost, .local, .internal, .lan, .home, .corp, .host, .localdomain, .arpa. Это служебные зоны, никогда не используемые для реальной почты. Опцию можно отключить, если вам нужны технические адреса.
Какой максимальный объём текста можно обработать?
Технически — сколько вместит память браузера. На практике без задержек обрабатывается до 50 МБ текста (около 1–2 миллионов email). Файлы больше 100 МБ лучше разбивать на части — иначе вкладка может зависнуть на пару минут.
Что делать с результатом, чтобы рассылка пришла на 99%+ адресов?
Этот парсер достаёт синтаксически корректные адреса. Дальше — три шага: 1) Прогнать через email-валидатор (есть в наших инструментах) для проверки синтаксиса по RFC, MX-записей и одноразовых доменов. 2) Прогнать через SMTP-верификатор (Hunter, ZeroBounce, NeverBounce). 3) Догрев домена и постепенный объём рассылки — особенно для нового списка.
Почему нашлось меньше адресов, чем я ожидал?
Возможные причины: 1) Адреса написаны с опечатками без точки в домене (например ivan@mailru) — такие парсер пропускает. 2) Включён фильтр невалидных доменов, и тестовые адреса .test/.localhost отброшены. 3) Адреса в нестандартной обфускации (image, base64, custom JS) — выключите все скрипты, проверьте текст вручную. 4) Дубли свернулись — посмотрите в блоке сводки строку «Всего найдено» (до дедупа).

Полезная информация

🔒 Полная конфиденциальность. Текст и адреса не покидают браузер — ничего не отправляется на сервер.

📊 Для маркетологов. Чистый список с отсевом технических доменов и удалением дублей снижает bounce rate в 4–6 раз и защищает репутацию домена-отправителя.

Связанные инструменты

Чтобы довести список до отправки, обычно нужны ещё пара шагов:

Комментарии (1)

Был ли полезен этот инструмент?
Руслан Авдеев (автор проекта)1 янв. 2024 г., 00:00
🎉 Спасибо, что используете наши инструменты! Все инструменты на ToolFox полностью бесплатны и постоянно улучшаются. 📝 Пожалуйста, оставляйте комментарии: - Если инструмент работает некорректно - Если есть идеи по улучшению - Поделитесь своим опытом использования 👍 Ставьте лайки/дизлайки - это помогает мне понять, какие инструменты нуждаются в доработке. Я обновляю сайт каждую неделю на основе вашей обратной связи. ⭐ Если вам нравится ToolFox — буду благодарен за отзыв о сайте в Яндекс.Браузере (нажмите на ⋮ → «Оценить сайт» в панели браузера). Это помогает другим людям находить наши инструменты! 😊 Также вы можете написать мне напрямую в Telegram: @avdeevrus Все доработки и улучшения по вашим пожеланиям делаю бесплатно! Благодарю за доверие и использование ToolFox! 🚀