Извлечение URL
Извлечение URL адресов из текста с поддержкой разных форматов
Извлечение URL из текста — парсинг ссылок онлайн
Онлайн-инструмент находит все http- и https-ссылки в любом тексте, HTML-коде или содержимом файла. По желанию подхватывает mailto- и tel-ссылки, убирает дубликаты, сортирует и склеивает результат через один из четырёх разделителей. Парсинг идёт полностью в браузере — текст не отправляется на сервер.
- Извлечение http и https ссылок из любого текста
- Опционально — mailto: и tel: ссылки
- Автоматическое удаление дубликатов
- Сортировка результата по алфавиту
- Четыре разделителя: новая строка, запятая, пробел, запятая с пробелом
- Загрузка файлов .txt, .html, .htm, .md
Как работает парсер
Инструмент использует регулярное выражение для абсолютных URL: протокол http или https + домен + путь и параметры (если есть). Скобки, кавычки и пробелы по краям ссылки игнорируются — захватывается только сам адрес. Из одинаковых ссылок остаётся одна.
Для mailto и tel включаются отдельные шаблоны: первый ловит адреса вида mailto:user@domain.tld, второй — tel:+7 (495) 123-45-67. Эти типы отключены по умолчанию — включите чекбоксами под кнопками.
Сценарии использования
Контент-анализ: собрать все источники из статьи или подборки. SEO-аудит: извлечь все исходящие ссылки со страницы для дальнейшей проверки на 404 в специализированных сервисах. Миграция сайта: вытащить список URL из дампа страницы для настройки 301-редиректов. Лог-парсинг: извлечь URL из referrer и request_uri из лога веб-сервера.
Пример: список источников из статьи
Автор готовит лонгрид по SEO с большой подборкой исходников. В черновике перемешаны 150+ упоминаний URL — нужно собрать чистый список для оглавления «Использованные материалы».
Скопировал черновик в поле «Исходный текст»
Включил сортировку по алфавиту, разделитель — новая строка
Нажал «Извлечь URL адреса» → счётчик показал 87 уникальных адресов
Скопировал результат и вставил в раздел «Источники» статьи
Чистый отсортированный список из 87 ссылок за 10 секунд вместо часа ручной работы. Ни одного дубля, все URL — рабочие http/https.
Знаете ли вы?
Средняя веб-страница содержит 50–200 ссылок: навигация, контент, скрипты, стили, изображения, реклама
5–15% ссылок на средней странице — битые (ведут на 404). Google учитывает это при ранжировании
Regex для URL: https?://[^\s<>"]+ — покрывает 95% реальных ссылок. Полный RFC 3986 regex — 500+ символов
Самый длинный допустимый URL — 2 083 символа (ограничение Internet Explorer). Chrome и Firefox — до 2 000 000 символов
Mailto-ссылки (mailto:user@domain.com) — тоже URL, но с протоколом mailto: вместо https:
В 2024 году 95% сайтов используют HTTPS. HTTP-ссылки помечаются браузерами как небезопасные
Типы ссылок в HTML
| Атрибут | Элемент | Пример | Что содержит |
|---|---|---|---|
| href | <a> | <a href="/page"> | Ссылка на страницу |
| src | <img> | <img src="img.jpg"> | Путь к изображению |
| href | <link> | <link href="style.css"> | Путь к стилям |
| src | <script> | <script src="app.js"> | Путь к скрипту |
| action | <form> | <form action="/api"> | URL обработчика формы |
Что считается URL
Парсер ловит абсолютные ссылки с протоколом http:// или https:// — это покрывает большинство практических случаев. Относительные пути (/page или ./script.js) и фоновые изображения из CSS (background: url('...')) не извлекаются — для них нужен HTML-парсер. Для mailto: и tel: включите соответствующие чекбоксы.
Как использовать Извлечение URL
Шаг 1
Вставьте текст в поле «Исходный текст» или загрузите файл (.txt, .html, .htm, .md).
Шаг 2
При необходимости включите mailto: и tel: ссылки чекбоксами и выберите разделитель в выпадающем списке.
Шаг 3
Нажмите «Извлечь URL адреса» — счётчик покажет количество найденных адресов, результат появится в правом поле.
Шаг 4
Скопируйте результат одной кнопкой и вставьте куда нужно — в документ, таблицу, скрипт.
Примеры использования
Черновик статьи с источниками
В тексте 120 упоминаний URL вперемешку — парсер вернул 87 уникальных после удаления дублей.
Дамп HTML-страницы
Из сохранённой через «Просмотр кода страницы» HTML-разметки извлечены 65 абсолютных URL из href, src и текста.
Лог веб-сервера
Из строк access.log с полями referrer и request_uri собран список 340 уникальных URL, отсортированных по алфавиту.
Текст с почтой и телефонами
Включены чекбоксы mailto и tel — наряду с https-ссылками в результат попали 12 адресов почты и 5 телефонов.
Подборка из мессенджера
Сообщения с пересылками — каждый URL рядом со скобками, кавычками и эмодзи. Парсер вырезает чистые ссылки без мусора.
Часто задаваемые вопросы
Данные отправляются на сервер?
Находит ли относительные URL вида /page?
Извлекает ли ссылки из CSS-файла?
Максимальный размер текста?
Как проверить найденные URL на битые ссылки?
Чем это лучше Ctrl+F или ручного поиска?
Извлекает ли ссылки из PDF?
Полезная информация
Парсер работает в браузере. Текст и найденные URL не отправляются на сервер.
После извлечения список удобно вставить в Excel или Google Sheets через разделитель «Запятая» — каждый адрес попадёт в свою ячейку.
Регулярно сверяете подборку источников? Сохраняйте экспортированный список — при повторной проверке быстро увидите, какие ссылки добавились или пропали.