Як витягти всі посилання

Як витягти всі посилання

Інтернет живе посиланнями. За посиланнями користувачі переходять між сторінками сайтів. Шляхом публікації посилань привертається увага до цікавих ресурсів. Посилання використовуються пошуковими системами для поповнення пошукової бази та розрахунку параметрів, використовуваних при ранжируванні. Посилання — основа web. Саме тому правильна перелінковка і коректна посилальна структура так важлива для кожного ресурсу. І саме тому кожен web-майстер повинен знати відповідь на питання про те, як отримати всі посилання сайту, окремої сторінки або групи сторінок.

Вам знадобиться

- Безкоштовна програма Xenu’s Link Sleuth, доступна для завантаження за адресою http://home.snafu.de/tilman/xenulink.html;
- Підключення до інтернету.

Інструкція

  1. Створіть новий проект у програмі Xenu’s Link Sleuth. У головному меню програми виберіть пункт «File», а потім «Check URL …», або натисніть сполучення клавіш Ctrl + N. У отобразившейся діалозі «Xenu’s starting point» у верхньому полі введіть URL сторінки, з якої потрібно почати витяг посилань. При необхідності заповніть поля в групі елементів управління «Include / Exclude» для внесення додаткових зовнішніх адрес і груп адрес у можливий список перевірки та примусового заборони деяких адрес або груп адрес до індексації додатком.
  2. Встановіть параметри роботи програми. У діалозі «Xenu’s starting point» натисніть кнопку «More options …». Буде відображений діалог «Options». Перейдіть на вкладку «Basic» діалогу. Шляхом руху повзунка «Parallel Threads» встановіть кількість паралельних потоків, що завантажують дані з інтернету. У полі «Maximum depth» введіть значення максимальної глибини перегляду посилань додатком. У групі елементів «Report» активуйте або вимкніть опції формування звіту. Перейдіть на вкладку «Advanced». Активуйте або вимкніть додаткові опції. У полі «Retries» введіть значення максимальної кількості повторних запитів URL при невдачі. Натисніть кнопку «OK».
  3. Отримайте список сторінок і посилань сайту. У діалозі «Xenu’s starting point» натисніть кнопку «OK». Додаток почне роботу. У рядку стану буде відображатися інформація про хід процесу одержання даних. Дочекайтеся завершення процесу. У вікні з запитом на створення звіту (вікно з текстом «Link sleuth finished. Do you want a report?») Натисніть кнопку «Ні».
  4. Вийміть всі посилання окремої сторінки. У побудованому додатком списку сторінок знайдіть ту, посилання якій необхідно витягти. Клацніть правою кнопкою миші по відповідному рядку. У контекстному меню виберіть пункт «URL Properties». У полі «… links on this page» відобразити діалогу буде міститися список всіх посилань, присутніх на сторінці. У полі «… linking to this one» будуть приведені адреси сторінок, які посилаються на дану.
  5. Вийміть всі посилання сайту. У головному меню виберіть пункт «File», а потім пункт «Export Page Map to TAB separated File …». У діалозі вкажіть ім’я і шлях для збереження файлу. Отриманий файл містить всі адреси посилаються і цільових сторінок в полях OriginPage і LinkToPage. У полі LinkToPageStatus наведені значення успішності операції отримання даних з сервера. Імпортуйте файл в базу даних (наприклад, MS Access) для вилучення посилань відповідно до потрібними критеріями.

Зверніть увагу

Використання великої кількості паралельних потоків може викликати серйозне навантаження на сервер.

Корисні поради

При наявності помилок завантаження інформації виберіть у меню пункти «File» і «Retry broken links» або натисніть Ctrl + R для повторної перевірки помилкових URL.