🔗

Извлечение URL

Извлечение URL адресов из текста с поддержкой разных форматов

Загрузить файл

Сортировать

Включать mailto: ссылкиВключать tel: ссылки

Исходный текст:

Найденные URL адреса:

Извлечение URL из текста — парсинг ссылок онлайн

Онлайн-инструмент находит все http- и https-ссылки в любом тексте, HTML-коде или содержимом файла. По желанию подхватывает mailto- и tel-ссылки, убирает дубликаты, сортирует и склеивает результат через один из четырёх разделителей. Парсинг идёт полностью в браузере — текст не отправляется на сервер.

Извлечение http и https ссылок из любого текста
Опционально — mailto: и tel: ссылки
Автоматическое удаление дубликатов
Сортировка результата по алфавиту
Четыре разделителя: новая строка, запятая, пробел, запятая с пробелом
Загрузка файлов .txt, .html, .htm, .md

Как работает парсер

Инструмент использует регулярное выражение для абсолютных URL: протокол http или https + домен + путь и параметры (если есть). Скобки, кавычки и пробелы по краям ссылки игнорируются — захватывается только сам адрес. Из одинаковых ссылок остаётся одна.

Для mailto и tel включаются отдельные шаблоны: первый ловит адреса вида mailto:user@domain.tld, второй — tel:+7 (495) 123-45-67. Эти типы отключены по умолчанию — включите чекбоксами под кнопками.

Сценарии использования

Контент-анализ: собрать все источники из статьи или подборки. SEO-аудит: извлечь все исходящие ссылки со страницы для дальнейшей проверки на 404 в специализированных сервисах. Миграция сайта: вытащить список URL из дампа страницы для настройки 301-редиректов. Лог-парсинг: извлечь URL из referrer и request_uri из лога веб-сервера.

🔗

Пример: список источников из статьи

Автор готовит лонгрид по SEO с большой подборкой исходников. В черновике перемешаны 150+ упоминаний URL — нужно собрать чистый список для оглавления «Использованные материалы».

Скопировал черновик в поле «Исходный текст»

Включил сортировку по алфавиту, разделитель — новая строка

Нажал «Извлечь URL адреса» → счётчик показал 87 уникальных адресов

Скопировал результат и вставил в раздел «Источники» статьи

✅

Чистый отсортированный список из 87 ссылок за 10 секунд вместо часа ручной работы. Ни одного дубля, все URL — рабочие http/https.

🧠

Знаете ли вы?

🔗

Средняя веб-страница содержит 50–200 ссылок: навигация, контент, скрипты, стили, изображения, реклама

📊

5–15% ссылок на средней странице — битые (ведут на 404). Google учитывает это при ранжировании

💻

Regex для URL: https?://[^\s<>"]+ — покрывает 95% реальных ссылок. Полный RFC 3986 regex — 500+ символов

🌍

Самый длинный допустимый URL — 2 083 символа (ограничение Internet Explorer). Chrome и Firefox — до 2 000 000 символов

📧

Mailto-ссылки (mailto:user@domain.com) — тоже URL, но с протоколом mailto: вместо https:

🔒

В 2024 году 95% сайтов используют HTTPS. HTTP-ссылки помечаются браузерами как небезопасные

Типы ссылок в HTML

Атрибут	Элемент	Пример	Что содержит
href	<a>	<a href="/page">	Ссылка на страницу
src	<img>	<img src="img.jpg">	Путь к изображению
href	<link>	<link href="style.css">	Путь к стилям
src	<script>	<script src="app.js">	Путь к скрипту
action	<form>	<form action="/api">	URL обработчика формы

💡

Что считается URL

Парсер ловит абсолютные ссылки с протоколом http:// или https:// — это покрывает большинство практических случаев. Относительные пути (/page или ./script.js) и фоновые изображения из CSS (background: url('...')) не извлекаются — для них нужен HTML-парсер. Для mailto: и tel: включите соответствующие чекбоксы.

Как использовать Извлечение URL

Шаг 1

Вставьте текст в поле «Исходный текст» или загрузите файл (.txt, .html, .htm, .md).

Шаг 2

При необходимости включите mailto: и tel: ссылки чекбоксами и выберите разделитель в выпадающем списке.

Шаг 3

Нажмите «Извлечь URL адреса» — счётчик покажет количество найденных адресов, результат появится в правом поле.

Шаг 4

Скопируйте результат одной кнопкой и вставьте куда нужно — в документ, таблицу, скрипт.

Примеры использования

Черновик статьи с источниками

В тексте 120 упоминаний URL вперемешку — парсер вернул 87 уникальных после удаления дублей.

Дамп HTML-страницы

Из сохранённой через «Просмотр кода страницы» HTML-разметки извлечены 65 абсолютных URL из href, src и текста.

Лог веб-сервера

Из строк access.log с полями referrer и request_uri собран список 340 уникальных URL, отсортированных по алфавиту.

Текст с почтой и телефонами

Включены чекбоксы mailto и tel — наряду с https-ссылками в результат попали 12 адресов почты и 5 телефонов.

Подборка из мессенджера

Сообщения с пересылками — каждый URL рядом со скобками, кавычками и эмодзи. Парсер вырезает чистые ссылки без мусора.

Часто задаваемые вопросы

Данные отправляются на сервер?

Нет. Парсинг идёт в браузере через JavaScript. Текст и найденные URL никуда не отправляются и не сохраняются.

Находит ли относительные URL вида /page?

Нет. Парсер ищет только абсолютные http/https-адреса. Относительные пути из href="/page" в HTML не извлекаются — для этого нужен полноценный HTML-парсер с указанием базового домена. Если HTML содержит абсолютные ссылки <a href="https://example.com/page">, они подхватятся.

Извлекает ли ссылки из CSS-файла?

Только если они написаны в формате http(s)://. Конструкции вида url('bg.jpg') или @import url('fonts.css') без протокола парсер пропустит — это относительные пути.

Максимальный размер текста?

Зависит от браузера. Для типичного HTML-дампа в 500 КБ — обработка мгновенная. Файлы 5–10 МБ (логи) — несколько секунд. Гарантированно работает до ~50 МБ в Chrome и Firefox на десктопе.

Как проверить найденные URL на битые ссылки?

Этот инструмент только извлекает адреса. Для проверки на 404 скопируйте список в Screaming Frog, в онлайн-чекер или прогоните через curl/wget. На toolfox.ru есть отдельные инструменты для проверки доступности.

Чем это лучше Ctrl+F или ручного поиска?

Ctrl+F находит вхождения по подстроке, но не вычленяет полный URL и не убирает дубли. Парсер за одно нажатие возвращает чистый отсортированный список без повторов — для подборки из 100+ ссылок это экономит десятки минут.

Извлекает ли ссылки из PDF?

Напрямую — нет. Сначала откройте PDF, выделите текст (Ctrl+A), скопируйте (Ctrl+C) и вставьте в поле инструмента. Сканированные PDF предварительно прогоните через OCR.

Полезная информация

Парсер работает в браузере. Текст и найденные URL не отправляются на сервер.

После извлечения список удобно вставить в Excel или Google Sheets через разделитель «Запятая» — каждый адрес попадёт в свою ячейку.

Регулярно сверяете подборку источников? Сохраняйте экспортированный список — при повторной проверке быстро увидите, какие ссылки добавились или пропали.

Комментарии (1)

Был ли полезен этот инструмент?

hjjj• 17 мар. 2026 г., 01:22

обрезает в конце "-" или "_" изза этого ссылка становится нерабочей, исправьте

Руслан Авдеев (автор проекта)• 1 янв. 2024 г., 00:00

🎉 Спасибо, что используете наши инструменты! Все инструменты на ToolFox полностью бесплатны и постоянно улучшаются. 📝 Пожалуйста, оставляйте комментарии: - Если инструмент работает некорректно - Если есть идеи по улучшению - Поделитесь своим опытом использования 👍 Ставьте лайки/дизлайки - это помогает мне понять, какие инструменты нуждаются в доработке. Я обновляю сайт каждую неделю на основе вашей обратной связи. ⭐ Если вам нравится ToolFox — буду благодарен за отзыв о сайте в Яндекс.Браузере (нажмите на ⋮ → «Оценить сайт» в панели браузера). Это помогает другим людям находить наши инструменты! 😊 Также вы можете написать мне напрямую в Telegram: @avdeevrus Все доработки и улучшения по вашим пожеланиям делаю бесплатно! Благодарю за доверие и использование ToolFox! 🚀