MySitemapGenerator

Сканування сайтів


Для успішного сканування веб-сайту мають бути виконані такі умови:

  • Веб-сайт є загальнодоступним (немає авторизації або обмежень за IP)
  • Сервер повертає коректний і розпізнаваний HTML-контент
  • Домашня сторінка містить посилання на внутрішні сторінки
  • Веб-сайт дозволяє доступ краулеру (не заблокований через robots.txt або правила брандмауера)

Сканування починається з домашньої сторінки. Краулер виявляє і обробляє внутрішні посилання на ній і продовжує навігацію по структурі сайту на основі знайдених посилань.

Домашня сторінка може включати перенаправлення в межах одного хосту (наприклад, з http://example.com на https://example.com), це буде оброблено коректно.


Кореневий URL - це базова адреса для доступу до вашого веб-сайту на веб-сервері. Він складається з двох необхідних компонентів:

  • Схема протоколу (зазвичай https:// або http://)
  • Доменне ім'я (наприклад, website.tld)

Приклади допустимих кореневих URL:

  • https://website.tld
  • http://subdomain.website.tld

Ми підтримуємо:

  • всі типи доменів (TLD, ccTLD і поддомени будь-якого рівня)
  • Інтернаціоналізовані доменні імена (IDN) для більшості мов, включаючи арабські, індійські та кириличні домени

Вам не потрібно перетворювати IDN на Punycode - просто введіть URL у його оригінальній мовній формі.

При необхідності кореневий URL може включати мовний індикатор. Це застосовується тільки до генератора товарного фіду.


Підтримується лише один формат мовної версії. Він повинен відповідати кореневій папці і містити:

  • двобуквенний код мови (ISO 639-1)
  • опціонально, за яким слідує код регіону (ISO 3166-1 Alpha-2), розділений дефісом

Приклади допустимих мовних URL:

  • https://mydomain.com/uk
  • https://mydomain.com/uk-UA


MySitemapGenerator підтримує HTTP та HTTPS.

Зауважте: згідно зі специфікацією протоколу XML Sitemaps, сканування та генерація даних здійснюються лише для протоколу, зазначеного в кореневому URL.


Так. Це поведінка опціональна, але увімкнена за замовчуванням.

При увімкненні краулер дотримується правил Allow і Disallow, визначених у:

  • загальному розділі User-agent: *
  • або в розділі для конкретного краулера, якщо застосовано

«Персональні» розділи user-agent (такі як Googlebot або Yandex) враховуються при виборі режиму ідентифікації краулера.

Ви також можете визначити правила спеціально для нашого краулера:

    User-agent: Mysitemapgenerator

Приклад robots.txt:

    #Заборонити всім роботам сканувати певну директорію
    User-agent: *
    Disallow: /noindex-directory/
    
    #Правило для Google
    User-agent: Googlebot
    Disallow: /noindex-directory/disallow-google.html
    
    #Правила для Yandex
    User-agent: Yandex
    Disallow: /noindex-directory/
    Allow: /noindex-directory/allow-yandex.html
    
    #Правила для Mysitemapgenerator
    User-agent: Mysitemapgenerator
    Disallow: /noindex-directory/
    Allow: /noindex-directory/*.html


Deep Web (також відомий як Invisible Web) включає сторінки, які не індексуються пошуковими системами, оскільки вони недоступні через стандартні гіперпосилання.

Приклади включають:

  • сторінки, створені через HTML-форми
  • контент, що завантажується всередині фреймів або iframe

Щоб виявити й включити такі сторінки, увімкніть такі параметри:

  • Сканувати HTML-форми (відправка форми без вводу)
  • Сканувати вміст фреймів (<frameset> та <iframe>)


При увімкненні (поведінка за замовчуванням) посилання nofollow ігноруються.

Ви також можете вибрати:

  • ігнорувати лише noindex
  • ігнорувати лише nofollow
  • або обробляти обидва незалежно

Джерела посилань nofollow включають:

  • HTML-посилання з атрибутом rel="nofollow"
  • посилання, розміщені на сторінках, позначених директивою robots nofollow


При увімкненні (за замовчуванням) сторінки обробляються відповідно до:

  • мета-тегів robots
  • заголовків HTTP X-Robots-Tag

Ви можете незалежно контролювати обробку noindex та nofollow.

Директиви мета-тегів для конкретних краулерів (наприклад, для Googlebot) враховуються при виборі режиму ідентифікації краулера.

Ви також можете використовувати мета-теги, призначені спеціально для MySitemapGenerator.

Приклади мета-тегів robots:

    <meta name="robots" content="noindex" />
    
    <meta name="robots" content="nofollow" />
    
    <meta name="robots" content="noindex,nofollow" />

Приклад заголовка HTTP X-Robots-Tag:

    X-Robots-Tag: noindex
    
    X-Robots-Tag: nofollow
    
    X-Robots-Tag: noindex, nofollow


Краулер розпізнає такі коди статусу HTTP:

  • 301 Moved Permanently
  • 302 Found
  • 303 See Other
  • 307 Temporary Redirect

Якщо сторінка перенаправляє в межах одного домену, краулер індексує цільовий URL.


Так - це увімкнено за замовчуванням.

При активації директиви canonical дотримуються і не-канонічні URL виключаються з результатів сканування.

Посилання canonical обробляються як:

  • в HTML (через тег <link rel="canonical">)
  • в заголовках HTTP (через заголовок Link)

Приклад HTML:

    <link rel="canonical" href="http://www.website.tld/canonical_page.html"/>
Приклад заголовка HTTP:
    Link: <http://www.website.tld/canonical_page.html>; rel="canonical"

Технічно посилання canonical обробляються подібно до перенаправлення на сервері (HTTP 303) і можуть з'явитися в звітах, позначені як «м'яке» перенаправлення.


Якщо краулер зустрінеться з проблемами, буде створено докладний звіт про помилки.

Звіт включає:

  • згруповані списки помилок сканування (наприклад, "Сторінка не знайдена", помилки сервера)
  • виявлені перенаправлення

Примітка: Звіти про помилки доступні лише для зареєстрованих користувачів.


Швидкість сканування залежить від багатьох динамічних факторів, таких як потужність вашого веб-сервера і розмір завантажуваних сторінок. Тому це неможливо розрахувати наперед.

Також великий вплив на час сканування веб-сайту має структура внутрішніх посилань.


За замовчуванням краулер автоматично регулює швидкість на основі чутливості сервера.

Ви можете вручну встановити рівень навантаження сканування:

  • Максимум - рекомендується для стабільних платних середовищ розміщення.
  • Середній - підходить для серверів середньої потужності.
  • Низький - мінімальне навантаження на сервер, рекомендується для безкоштовного або обмеженого хостингу

    (Примітка: це може значно сповільнити сканування).


Ви можете вибрати, як краулер себе ідентифікує:

  • Стандартний браузер (за замовчуванням, рекомендується)
  • Googlebot (Googlebot/2.1)
  • YandexBot (YandexBot/3.0)
  • Baiduspider
  • Mysitemapgenerator (пряма ідентифікація)

Поведінка залежить від вибраної ідентифікації:

  • При використанні Googlebot, YandexBot, Baiduspider або Mysitemapgenerator застосовуються лише правила для цього конкретного user-agent
  • Загальні правила (User-agent: *) використовуються лише якщо не існує специфічних правил для краулера
  • При використанні Standard browser або Mysitemapgenerator враховується лише розділ Mysitemapgenerator або загальний розділ


Якщо ваш сайт використовує рендеринг на стороні клієнта, краулер може спробувати обробити динамічно створений вміст, коли:

  • обробка JavaScript увімкнена
  • або автоматично виявлена як необхідна

Обмеження обробки JavaScript:

  • Зовнішні скрипти з інших доменів (CDN, API, поддомени) не виконуються
  • Взаємодії, ініційовані користувачем (прокручування, клік) не імітуються
  • Лише елементи HTML <a> з атрибутом href розглядаються як посилання
  • Навігація, реалізована з використанням нестандартних механізмів посилань, не буде просканована.


Не можете знайти відповіді, які шукаєте? Ми тут, щоб допомогти.

Зв'язок зі службою підтримки
The network connection was lost.
Reload