🔗

Извлечение URL

Извлечение URL адресов из текста с поддержкой разных форматов

Извлечение URL из текста — парсинг ссылок онлайн

Онлайн инструмент для автоматического извлечения URL-адресов из любого текста, HTML-кода или документа. Находит http, https, ftp и относительные ссылки. Удаляет дубликаты, фильтрует по домену, экспортирует чистый список. Обработка в браузере — полная конфиденциальность.

  • Извлечение http/https/ftp ссылок из текста
  • Парсинг href из HTML-кода
  • Удаление дубликатов и невалидных URL
  • Фильтрация по домену или паттерну
  • Сортировка по домену, длине или порядку
  • Экспорт: построчный список, CSV, JSON

Как работает парсер

Инструмент использует regex для поиска URL-паттернов: протокол + домен + путь + параметры. Обрабатывает сложные случаи: ссылки в кавычках, скобках, HTML-атрибутах (href, src, action). Фильтрует невалидные (без домена, битые). Нормализует: убирает trailing slash, приводит к нижнему регистру домена.

    Сценарии использования

    SEO-аудит: извлечь все ссылки со страницы для проверки на битые. Контент-анализ: собрать все источники из статьи. Миграция сайта: список URL для настройки редиректов. Парсинг данных: извлечь ссылки на товары, изображения, документы из HTML. Мониторинг: проверить, на что ссылается конкурент.

      💡

      Пример из жизни

      SEO-специалист проверяет страницу на битые ссылки. Скопировал HTML-код (500 строк) и нужно извлечь все URL для проверки.

      1

      Вставил HTML в инструмент

      2

      Парсер нашёл 87 URL: 45 внутренних, 32 внешних, 10 на изображения

      3

      Отфильтровал внешние → проверил каждый → 3 битых (404)

      Нашёл и исправил 3 битых ссылки за 5 минут. Вручную просматривать 500 строк HTML — 30+ минут. Битые ссылки снижают SEO — исправление повысило PageRank.

      🧠

      Знаете ли вы?

      🔗

      Средняя веб-страница содержит 50–200 ссылок: навигация, контент, скрипты, стили, изображения, реклама

      📊

      5–15% ссылок на средней странице — битые (ведут на 404). Google учитывает это при ранжировании

      💻

      Regex для URL: https?://[^\s<>"]+ — покрывает 95% реальных ссылок. Полный RFC 3986 regex — 500+ символов

      🌍

      Самый длинный допустимый URL — 2 083 символа (ограничение Internet Explorer). Chrome и Firefox — до 2 000 000 символов

      📧

      Mailto-ссылки (mailto:user@domain.com) — тоже URL, но с протоколом mailto: вместо https:

      🔒

      В 2024 году 95% сайтов используют HTTPS. HTTP-ссылки помечаются браузерами как небезопасные

      Типы ссылок в HTML

      АтрибутЭлементПримерЧто содержит
      href<a><a href="/page">Ссылка на страницу
      src<img><img src="img.jpg">Путь к изображению
      href<link><link href="style.css">Путь к стилям
      src<script><script src="app.js">Путь к скрипту
      action<form><form action="/api">URL обработчика формы
      💡

      Важно знать

      Для SEO-аудита: извлеките все URL, отфильтруйте внешние (по домену ≠ ваш) и проверьте каждый на доступность (200 OK). Битые внешние ссылки (404, 500) — снижают доверие Google к вашей странице.

      Как использовать Извлечение URL

      1

      Шаг 1

      Вставьте текст, HTML-код или документ в поле ввода

      2

      Шаг 2

      Нажмите «Извлечь» — парсер найдёт все URL за секунды

      3

      Шаг 3

      Отфильтруйте: по домену, типу (http/https), внутренние/внешние

      4

      Шаг 4

      Экспортируйте чистый список: построчно, CSV или JSON

      Примеры использования

      HTML-страница (200 строк)

      Найдено 65 URL: 30 в <a href>, 20 в <img src>, 10 в <link>, 5 в <script>. Дубликатов: 8 → уникальных 57

      Текст статьи с inline-ссылками

      «Подробнее на https://example.com/page» → извлечено 12 URL из текста блога

      CSS-файл

      Фоновые изображения: url('bg.jpg'), @import url('fonts.css') → 8 URL на ресурсы

      Фильтр по домену: только example.com

      Из 87 URL отфильтрованы 45 внутренних (example.com). Остальные 42 — внешние → отдельный список

      Лог сервера (1000 строк)

      Извлечены URL из referrer и request_uri → 340 уникальных адресов за 2 секунды

      Часто задаваемые вопросы

      Данные отправляются на сервер?
      Нет. Парсинг выполняется в браузере через JavaScript. Ваш HTML/текст не покидает устройство.
      Находит ли относительные URL?
      Частично. /page, ./script.js — находит как пути. Но без базового домена не может определить полный URL. Для полного списка используйте абсолютные ссылки или укажите базовый домен.
      Максимальный объём текста?
      До 50 МБ в большинстве браузеров. Для типичного HTML (500 КБ) — мгновенная обработка. Для лог-файлов 10+ МБ — несколько секунд.
      Как проверить битые ссылки?
      Извлеките URL → скопируйте список → используйте онлайн-чекер битых ссылок или curl/wget. Для автоматизации: Screaming Frog, Ahrefs, или скрипт на Python.
      Чем это лучше Ctrl+F?
      Ctrl+F ищет один URL за раз. Инструмент находит ВСЕ URL, удаляет дубликаты, фильтрует и экспортирует список. Для страницы с 200 ссылками — экономия 30+ минут.
      Извлекает ли ссылки из PDF?
      Нет, инструмент работает с текстом. Для PDF: сначала скопируйте текст из PDF (Ctrl+A, Ctrl+C), затем вставьте в инструмент. Или используйте OCR-инструмент для сканированных PDF.

      Полезная информация

      🔒 Полная конфиденциальность. Текст обрабатывается в браузере — URL-адреса не отправляются на сервер.

      🔗 Для SEO. Извлеките все ссылки и проверьте на 404 — битые ссылки снижают ранжирование. Регулярная проверка = лучшие позиции.

      Комментарии (2)

      Был ли полезен этот инструмент?
      hjjj17 мар. 2026 г., 01:22
      обрезает в конце "-" или "_" изза этого ссылка становится нерабочей, исправьте
      Руслан Авдеев (автор проекта)1 янв. 2024 г., 00:00
      🎉 Спасибо, что используете наши инструменты! Все инструменты на ToolFox полностью бесплатны и постоянно улучшаются. 📝 Пожалуйста, оставляйте комментарии: - Если инструмент работает некорректно - Если есть идеи по улучшению - Поделитесь своим опытом использования 👍 Ставьте лайки/дизлайки - это помогает мне понять, какие инструменты нуждаются в доработке. Я обновляю сайт каждую неделю на основе вашей обратной связи. ⭐ Если вам нравится ToolFox — буду благодарен за отзыв о сайте в Яндекс.Браузере (нажмите на ⋮ → «Оценить сайт» в панели браузера). Это помогает другим людям находить наши инструменты! 😊 Также вы можете написать мне напрямую в Telegram: @avdeevrus Все доработки и улучшения по вашим пожеланиям делаю бесплатно! Благодарю за доверие и использование ToolFox! 🚀