Извлечение URL
Извлечение URL адресов из текста с поддержкой разных форматов
Извлечение URL из текста — парсинг ссылок онлайн
Онлайн инструмент для автоматического извлечения URL-адресов из любого текста, HTML-кода или документа. Находит http, https, ftp и относительные ссылки. Удаляет дубликаты, фильтрует по домену, экспортирует чистый список. Обработка в браузере — полная конфиденциальность.
- Извлечение http/https/ftp ссылок из текста
- Парсинг href из HTML-кода
- Удаление дубликатов и невалидных URL
- Фильтрация по домену или паттерну
- Сортировка по домену, длине или порядку
- Экспорт: построчный список, CSV, JSON
Как работает парсер
Инструмент использует regex для поиска URL-паттернов: протокол + домен + путь + параметры. Обрабатывает сложные случаи: ссылки в кавычках, скобках, HTML-атрибутах (href, src, action). Фильтрует невалидные (без домена, битые). Нормализует: убирает trailing slash, приводит к нижнему регистру домена.
Сценарии использования
SEO-аудит: извлечь все ссылки со страницы для проверки на битые. Контент-анализ: собрать все источники из статьи. Миграция сайта: список URL для настройки редиректов. Парсинг данных: извлечь ссылки на товары, изображения, документы из HTML. Мониторинг: проверить, на что ссылается конкурент.
Пример из жизни
SEO-специалист проверяет страницу на битые ссылки. Скопировал HTML-код (500 строк) и нужно извлечь все URL для проверки.
Вставил HTML в инструмент
Парсер нашёл 87 URL: 45 внутренних, 32 внешних, 10 на изображения
Отфильтровал внешние → проверил каждый → 3 битых (404)
Нашёл и исправил 3 битых ссылки за 5 минут. Вручную просматривать 500 строк HTML — 30+ минут. Битые ссылки снижают SEO — исправление повысило PageRank.
Знаете ли вы?
Средняя веб-страница содержит 50–200 ссылок: навигация, контент, скрипты, стили, изображения, реклама
5–15% ссылок на средней странице — битые (ведут на 404). Google учитывает это при ранжировании
Regex для URL: https?://[^\s<>"]+ — покрывает 95% реальных ссылок. Полный RFC 3986 regex — 500+ символов
Самый длинный допустимый URL — 2 083 символа (ограничение Internet Explorer). Chrome и Firefox — до 2 000 000 символов
Mailto-ссылки (mailto:user@domain.com) — тоже URL, но с протоколом mailto: вместо https:
В 2024 году 95% сайтов используют HTTPS. HTTP-ссылки помечаются браузерами как небезопасные
Типы ссылок в HTML
| Атрибут | Элемент | Пример | Что содержит |
|---|---|---|---|
| href | <a> | <a href="/page"> | Ссылка на страницу |
| src | <img> | <img src="img.jpg"> | Путь к изображению |
| href | <link> | <link href="style.css"> | Путь к стилям |
| src | <script> | <script src="app.js"> | Путь к скрипту |
| action | <form> | <form action="/api"> | URL обработчика формы |
Важно знать
Для SEO-аудита: извлеките все URL, отфильтруйте внешние (по домену ≠ ваш) и проверьте каждый на доступность (200 OK). Битые внешние ссылки (404, 500) — снижают доверие Google к вашей странице.
Как использовать Извлечение URL
Шаг 1
Вставьте текст, HTML-код или документ в поле ввода
Шаг 2
Нажмите «Извлечь» — парсер найдёт все URL за секунды
Шаг 3
Отфильтруйте: по домену, типу (http/https), внутренние/внешние
Шаг 4
Экспортируйте чистый список: построчно, CSV или JSON
Примеры использования
HTML-страница (200 строк)
Найдено 65 URL: 30 в <a href>, 20 в <img src>, 10 в <link>, 5 в <script>. Дубликатов: 8 → уникальных 57
Текст статьи с inline-ссылками
«Подробнее на https://example.com/page» → извлечено 12 URL из текста блога
CSS-файл
Фоновые изображения: url('bg.jpg'), @import url('fonts.css') → 8 URL на ресурсы
Фильтр по домену: только example.com
Из 87 URL отфильтрованы 45 внутренних (example.com). Остальные 42 — внешние → отдельный список
Лог сервера (1000 строк)
Извлечены URL из referrer и request_uri → 340 уникальных адресов за 2 секунды
Часто задаваемые вопросы
Данные отправляются на сервер?
Находит ли относительные URL?
Максимальный объём текста?
Как проверить битые ссылки?
Чем это лучше Ctrl+F?
Извлекает ли ссылки из PDF?
Полезная информация
🔒 Полная конфиденциальность. Текст обрабатывается в браузере — URL-адреса не отправляются на сервер.
🔗 Для SEO. Извлеките все ссылки и проверьте на 404 — битые ссылки снижают ранжирование. Регулярная проверка = лучшие позиции.
Комментарии (2)
🔗Похожие инструменты
Отправка в WhatsApp
Отправка сообщений в WhatsApp без добавления в контакты
Отправка в Viber
Отправка сообщений в Viber без добавления в контакты
Отправка в Telegram
Онлайн-сервис отправки сообщений в Telegram по номеру телефона без сохранения в контакты
Извлечение Email
Извлечение email адресов из текста с поддержкой разных форматов
Конвертер файлов
Конвертирование файлов в различные форматы
Скачать видео с YouTube, TikTok и Instagram по ссылке
Загрузчик видео по ссылке: YouTube, TikTok, Instagram — MP4, MP3, 1080p, 4K, Shorts