Перейти к содержимому
🔗

Извлечение URL

Извлечение URL адресов из текста с поддержкой разных форматов

Извлечение URL из текста — парсинг ссылок онлайн

Онлайн-инструмент находит все http- и https-ссылки в любом тексте, HTML-коде или содержимом файла. По желанию подхватывает mailto- и tel-ссылки, убирает дубликаты, сортирует и склеивает результат через один из четырёх разделителей. Парсинг идёт полностью в браузере — текст не отправляется на сервер.

  • Извлечение http и https ссылок из любого текста
  • Опционально — mailto: и tel: ссылки
  • Автоматическое удаление дубликатов
  • Сортировка результата по алфавиту
  • Четыре разделителя: новая строка, запятая, пробел, запятая с пробелом
  • Загрузка файлов .txt, .html, .htm, .md

Как работает парсер

Инструмент использует регулярное выражение для абсолютных URL: протокол http или https + домен + путь и параметры (если есть). Скобки, кавычки и пробелы по краям ссылки игнорируются — захватывается только сам адрес. Из одинаковых ссылок остаётся одна.

Для mailto и tel включаются отдельные шаблоны: первый ловит адреса вида mailto:user@domain.tld, второй — tel:+7 (495) 123-45-67. Эти типы отключены по умолчанию — включите чекбоксами под кнопками.

    Сценарии использования

    Контент-анализ: собрать все источники из статьи или подборки. SEO-аудит: извлечь все исходящие ссылки со страницы для дальнейшей проверки на 404 в специализированных сервисах. Миграция сайта: вытащить список URL из дампа страницы для настройки 301-редиректов. Лог-парсинг: извлечь URL из referrer и request_uri из лога веб-сервера.

      🔗

      Пример: список источников из статьи

      Автор готовит лонгрид по SEO с большой подборкой исходников. В черновике перемешаны 150+ упоминаний URL — нужно собрать чистый список для оглавления «Использованные материалы».

      1

      Скопировал черновик в поле «Исходный текст»

      2

      Включил сортировку по алфавиту, разделитель — новая строка

      3

      Нажал «Извлечь URL адреса» → счётчик показал 87 уникальных адресов

      4

      Скопировал результат и вставил в раздел «Источники» статьи

      Чистый отсортированный список из 87 ссылок за 10 секунд вместо часа ручной работы. Ни одного дубля, все URL — рабочие http/https.

      🧠

      Знаете ли вы?

      🔗

      Средняя веб-страница содержит 50–200 ссылок: навигация, контент, скрипты, стили, изображения, реклама

      📊

      5–15% ссылок на средней странице — битые (ведут на 404). Google учитывает это при ранжировании

      💻

      Regex для URL: https?://[^\s<>"]+ — покрывает 95% реальных ссылок. Полный RFC 3986 regex — 500+ символов

      🌍

      Самый длинный допустимый URL — 2 083 символа (ограничение Internet Explorer). Chrome и Firefox — до 2 000 000 символов

      📧

      Mailto-ссылки (mailto:user@domain.com) — тоже URL, но с протоколом mailto: вместо https:

      🔒

      В 2024 году 95% сайтов используют HTTPS. HTTP-ссылки помечаются браузерами как небезопасные

      Типы ссылок в HTML

      АтрибутЭлементПримерЧто содержит
      href<a><a href="/page">Ссылка на страницу
      src<img><img src="img.jpg">Путь к изображению
      href<link><link href="style.css">Путь к стилям
      src<script><script src="app.js">Путь к скрипту
      action<form><form action="/api">URL обработчика формы
      💡

      Что считается URL

      Парсер ловит абсолютные ссылки с протоколом http:// или https:// — это покрывает большинство практических случаев. Относительные пути (/page или ./script.js) и фоновые изображения из CSS (background: url('...')) не извлекаются — для них нужен HTML-парсер. Для mailto: и tel: включите соответствующие чекбоксы.

      Как использовать Извлечение URL

      1

      Шаг 1

      Вставьте текст в поле «Исходный текст» или загрузите файл (.txt, .html, .htm, .md).

      2

      Шаг 2

      При необходимости включите mailto: и tel: ссылки чекбоксами и выберите разделитель в выпадающем списке.

      3

      Шаг 3

      Нажмите «Извлечь URL адреса» — счётчик покажет количество найденных адресов, результат появится в правом поле.

      4

      Шаг 4

      Скопируйте результат одной кнопкой и вставьте куда нужно — в документ, таблицу, скрипт.

      Примеры использования

      Черновик статьи с источниками

      В тексте 120 упоминаний URL вперемешку — парсер вернул 87 уникальных после удаления дублей.

      Дамп HTML-страницы

      Из сохранённой через «Просмотр кода страницы» HTML-разметки извлечены 65 абсолютных URL из href, src и текста.

      Лог веб-сервера

      Из строк access.log с полями referrer и request_uri собран список 340 уникальных URL, отсортированных по алфавиту.

      Текст с почтой и телефонами

      Включены чекбоксы mailto и tel — наряду с https-ссылками в результат попали 12 адресов почты и 5 телефонов.

      Подборка из мессенджера

      Сообщения с пересылками — каждый URL рядом со скобками, кавычками и эмодзи. Парсер вырезает чистые ссылки без мусора.

      Часто задаваемые вопросы

      Данные отправляются на сервер?
      Нет. Парсинг идёт в браузере через JavaScript. Текст и найденные URL никуда не отправляются и не сохраняются.
      Находит ли относительные URL вида /page?
      Нет. Парсер ищет только абсолютные http/https-адреса. Относительные пути из href="/page" в HTML не извлекаются — для этого нужен полноценный HTML-парсер с указанием базового домена. Если HTML содержит абсолютные ссылки <a href="https://example.com/page">, они подхватятся.
      Извлекает ли ссылки из CSS-файла?
      Только если они написаны в формате http(s)://. Конструкции вида url('bg.jpg') или @import url('fonts.css') без протокола парсер пропустит — это относительные пути.
      Максимальный размер текста?
      Зависит от браузера. Для типичного HTML-дампа в 500 КБ — обработка мгновенная. Файлы 5–10 МБ (логи) — несколько секунд. Гарантированно работает до ~50 МБ в Chrome и Firefox на десктопе.
      Как проверить найденные URL на битые ссылки?
      Этот инструмент только извлекает адреса. Для проверки на 404 скопируйте список в Screaming Frog, в онлайн-чекер или прогоните через curl/wget. На toolfox.ru есть отдельные инструменты для проверки доступности.
      Чем это лучше Ctrl+F или ручного поиска?
      Ctrl+F находит вхождения по подстроке, но не вычленяет полный URL и не убирает дубли. Парсер за одно нажатие возвращает чистый отсортированный список без повторов — для подборки из 100+ ссылок это экономит десятки минут.
      Извлекает ли ссылки из PDF?
      Напрямую — нет. Сначала откройте PDF, выделите текст (Ctrl+A), скопируйте (Ctrl+C) и вставьте в поле инструмента. Сканированные PDF предварительно прогоните через OCR.

      Полезная информация

      Парсер работает в браузере. Текст и найденные URL не отправляются на сервер.

      После извлечения список удобно вставить в Excel или Google Sheets через разделитель «Запятая» — каждый адрес попадёт в свою ячейку.

      Регулярно сверяете подборку источников? Сохраняйте экспортированный список — при повторной проверке быстро увидите, какие ссылки добавились или пропали.

      Комментарии (2)

      Был ли полезен этот инструмент?
      hjjj17 мар. 2026 г., 01:22
      обрезает в конце "-" или "_" изза этого ссылка становится нерабочей, исправьте
      Руслан Авдеев (автор проекта)1 янв. 2024 г., 00:00
      🎉 Спасибо, что используете наши инструменты! Все инструменты на ToolFox полностью бесплатны и постоянно улучшаются. 📝 Пожалуйста, оставляйте комментарии: - Если инструмент работает некорректно - Если есть идеи по улучшению - Поделитесь своим опытом использования 👍 Ставьте лайки/дизлайки - это помогает мне понять, какие инструменты нуждаются в доработке. Я обновляю сайт каждую неделю на основе вашей обратной связи. ⭐ Если вам нравится ToolFox — буду благодарен за отзыв о сайте в Яндекс.Браузере (нажмите на ⋮ → «Оценить сайт» в панели браузера). Это помогает другим людям находить наши инструменты! 😊 Также вы можете написать мне напрямую в Telegram: @avdeevrus Все доработки и улучшения по вашим пожеланиям делаю бесплатно! Благодарю за доверие и использование ToolFox! 🚀