Індексація сайту
- Що таке коренева URL-адреса веб-сайту?
- Які форми кореневих URL припустимі для мовних версій сайту?
- Які протоколи HTTP підтримуються?
- Чи враховуються обмеження, зазначені в файлі robots.txt, під час сканування?
- Що таке приховані сторінки (Deep Web) і як включити їх у карту сайту?
- Що станеться з посиланнями nofollow?
- Як обробляються веб-сторінки, які використовують метатег robots або HTTP-заголовок X-Robots-Tag?
- Як сканер обробляє внутрішні серверні переспрямування?
- Чи обробляє робот канонічні посилання (rel=canonical)?
- Чи обробляє робот AJAX-посилання (хешбанг)?
- Обробка та видалення phpsessid і sessionID (ідентифікатори сесії в PHP- та ASP-додатках)
- What data is contained in error report, generated after crawling the website?
- Can I stop the website crawling before it is finished?
- Choosing optimal crawl speed and load capacity on your web server
- How to simulate crawls by search engines robots?
- Обмеження щодо вмісту, який динамічно формується за допомогою JavaScript
Що таке коренева URL-адреса веб-сайту?
Коренева URL-адреса — це базова адреса для доступу до вашого домену на веб-сервері. Він складається з двох обов’язкових компонентів – схеми протоколу (зазвичай https://) і доменного імені (наприклад, website.tld). Приклади кореневої URL-адреси: https://website.tld, http://subdomain.website.tld.
Ми підтримуємо будь-які існуючі типи доменів, такі як домени верхнього рівня (TLD), домени для окремих країн (ccTLD), а також субдомени будь-якого рівня. Ми також підтримуємо інтернаціоналізовані домени (IDN) для більшості мов, таких як арабські, індійські та кириличні домени. Зауважте, що вам не потрібно перетворювати ім’я хосту на Punycode, просто введіть оригінальну URL-адресу своєю мовою.
Які форми кореневих URL припустимі для мовних версій сайту?
Підтримується лише один формат мовної версії, який є еквівалентом кореневої папки веб-сайту і може складатися з одного або, опціонально, двох значень, розділених дефісом. Перший - двозначний код мови у форматі ISO 639-1, за яким може йти необов'язковий другий код, що представляє код регіону у форматі ISO 3166-1 Alpha 2.
Приклади допустимих URL для мовних версій:
- http://mydomain.com/en
- http://mydomain.com/en-US
Які протоколи HTTP підтримуються?
Mysitemapgenerator підтримує HTTP та HTTPS.
Зверніть увагу, що згідно зі специфікацією протоколу XML Sitemaps, сканування сайту та генерація даних здійснюються лише для зазначеного протоколу передачі даних.
Чи враховуються обмеження, зазначені в файлі robots.txt, під час сканування?
Це необов’язково, але ввімкнено за умовчанням. Якщо цей параметр позначено, наш бот дотримуватиметься правил дозволу та заборони в загальному розділі User-Agent.
«Персональні» розділи User-Agent (наприклад, Google або Yandex) враховуються при виборі відповідного режиму сканера, в якості пошукового бота.
Крім того, ви можете створити окремий розділ спеціально для Mysitemapgenerator:
User-agent: Mysitemapgenerator
Нижче наведено приклад файлу robots.txt:
#Всі роботи не повинні відвідувати будь-які URL-адреси, що починаються з /noindex-directory/ User-agent: * Disallow: /noindex-directory/ #Роботу Google не потрібно відвідувати певну URL-адресу User-agent: Googlebot Disallow: /noindex-directory/disallow-google.html #Роботу Яндекс не потрібно відвідувати URL, що починається з /noindex-directory/ #Але дозволяє сканувати певну сторінку User-agent: Yandex Disallow: /noindex-directory/ Allow: /noindex-directory/allow-yandex.html #Mysitemapgenerator не повинен відвідувати URL-адреси, що починається з /noindex-directory/ #Але дозволяє сканувати веб-сторінки з певним розширенням User-agent: Mysitemapgenerator Disallow: /noindex-directory/ Allow: /noindex-directory/*.html
Що таке приховані сторінки (Deep Web) і як включити їх у карту сайту?
Deep Web (також відомий як Deepnet, Invisible Web, Undernet або прихований Web) – веб-сторінки, які не індексуються пошуковими системами, оскільки такі сторінки не мають гіперпосилань з інших доступних сторінок. Наприклад – це сторінки, згенеровані через інтерфейс HTML-форм або вміст фрейму.
Якщо ви бажаєте виявити та включити такі сторінки до Sitemap, позначте відповідні параметри:
- «Сканувати веб-форми» (відправлення відбувається без заповнення форми);
- «Сканувати фрейми» (вміст <frameset> та <iframe>).
Що станеться з посиланнями nofollow?
Якщо опція включена (увімкнено за замовчуванням) – вони не розглядатимуться.
Крім того, за потреби ви завжди можете вказати ігнорування лише noindex (сторінки, позначені як noindex) або лише nofollow посилань окремо одне від одного.
Типи посилань Nofollow:
- HTML-посилання, що містять атрибут nofollow
- URL-адреси, заборонені у файлі robots.txt
- Розташовані на веб-сторінцках, позначених мета-тегом або HTTP-хідером nofollow
Як сканер обробляє внутрішні серверні переспрямування?
Наш робот обробляє наступні стандартні коди стану HTTP:
- 301 Moved Permanently
- 302 Found
- 303 See Other
- 307
Чи обробляє робот канонічні посилання (rel=canonical)?
Так, для цього достатньо позначити відповідну опцію «Слідувати та консолідувати канонічні URL». Якщо відповідну опцію активовано, робот враховуватиме наявність канонічних посилань, а неканонічні посилання буде виключено з результатів сканування.
Наш робот однаково обробляє інструкції в коді HTML, а також заголовки HTTP. Приклад зазначення канонічного посилання в HTML (розміщеного в розділі <head> неканонічної версії сторінки):
Приклад канонічного метатегу:
<link rel="canonical" href="http://www.website.tld/canonical_page.html"/>
Link: <http://www.website.tld/canonical_page.html>; rel="canonical"
Чи обробляє робот AJAX-посилання (хешбанг)?
Так, для цього достатньо позначити відповідну опцію «Опрацьовувати AJAX-взаємодії для URL-адрес з хеш-бенгом».
Кожне проіндексоване AJAX-посилання повинно мати HTML-версію, яка доступна за адресою, використовуючи комбінацію "#!", що замінюється параметром "?_escaped_fragment_=".
При скануванні AJAX-посилань робот замінює комбінацію #! з параметром ?_escaped_fragment_= і отримує доступ до сторінки за зміненою URL-адресою.
Під час створення Sitemap посилання, що містять hashbang (#!), використовуються в оригінальній формі.
Обробка та видалення phpsessid і sessionID (ідентифікатори сесії в PHP- та ASP-додатках)
Під час сканування ваш сайт може формувати ідентифікатори сеансу. Наш робот обробляє та видаляє ідентифікатори сеансу. У файл Sitemap всі посилання будуть введені «чистими», без ідентифікаторів, доданими в URL - phpsessid (для PHP) або об'єктах sessionID (для ASP). Це допомагає уникнути додавання повторюваних посилань у Sitemap, коли бот отримує ту саму сторінку з різними URL-адресами.
Приклад ідентифікатора сесії в PHP:
http://website.tld/page.html?PHPSESSID=123456session6789
http://website.tld/(S(123456session6789))/page.html
http://website.tld/page.html
What data is contained in error report, generated after crawling the website?
In the event that our crawler will face difficulties or obstacles in the process of crawl your website, a detailed report will be created. In a report you will be able to see grouped pages lists describing errors, among them - "Page not found", internal server errors, etc.
Besides the errors, the report will contain information about all the detected server redirects.
Error reports are available in paid versions.
Can I stop the website crawling before it is finished?
Such an opportunity is provided for registered users. In the personal account displays information about all of your created files, as well as information about Websites, which are being indexed at the moment. In order to interrupt the process of indexing, without waiting for the crawler to scan the entire website, click the "Stop" button. In this case, you will receive file, generated only on the basis of pages that have been indexed at the time of the stop.
Choosing optimal crawl speed and load capacity on your web server
In the options of the crawler there are three levels of crawl speed, creating appropriate load capacities on the server being indexed:
- Maximum - this load capacity is used by default. If you have a quality paid hosting, most likely you do not need to worry about creating a load while crawling your site. We recommend using this load value, which allows the crawler to index your website at top speed.
- Average – choose this load capacity, if your server requires a gentle mode of indexation.
- Low – level of load capacity, which allows crawl your site, creating a minimum load on the server. This load level is recommended for websites, located on a free hosting or for sites that require limited flow of traffic.
We recommend that you select this mode when crawling sites located on free hosting servers.
However, note that this level slows down the process of crawl your site.
How to simulate crawls by search engines robots?
You may choose one of the identification options for our Web-crawler* (Search Engine Bot), which does crawling of your website:
- Standard browser – crawler uses this option by default and is a recommended one. Your website will load the same way your regular visitors see it.
- YandexBot – this option is used to crawl your website as Yandex search bot sees it. Our crawler will be signed as the main Yandex bot (YandexBot/3.0)
- Googlebot – this option is used to crawl your website as Google search bot sees it. Crawler will be signed as Google's web search bot (Googlebot/2.1)
- Baiduspider - Baidu Web Search Bot
- Mysitemapgenerator – use direct identification of our crawler if you need separate control settings and an ability to manage website access
- When choosing YandexBot, GoogleBot, Baiduspider or Mysitemapgenerator options only instructions for a particular robot are considered (User-agent: Yandex, User-agent: Googlebot, User-agent: Mysitemapgenerator – respectively). General instructions of User-agent: * sections will be used only when "personal" ones are missing.
- If you are using Standard Browser or Mysitemapgenerator - crawler will consider only instructions in Mysitemapgenerator section or general section of User-agent: *. "Personal" sections of User-agent: Yandex or User-agent: Googlebot and others are not considered.
Обмеження щодо вмісту, який динамічно формується за допомогою JavaScript
Якщо ваш веб-сайт використовує JavaScript для генерації основної частини вмісту (що також називається візуалізацією на стороні клієнта), наш краулер спробує обробити динамічно-згенерований вміст веб-сторінки (якщо така потреба буде виявлена автоматично або коли у налаштуваннях ввімкнено опцію обробки Javascript), однак багато алгоритмів JavaScript можуть не оброблятися.
Обмеження щодо обробки JavaScript:
- Зверніть увагу, що наш веб-краулер не завантажує та не обробляє код Javascript із зовнішніх джерел, чиє ім’я хоста (домен) відрізняється від домену веб-сайту, наприклад ресурси, які завантажуються з серверів CDN або API, включно з субдоменами веб-сайту.
- Наш краулер не обробляє вміст, який динамічно генерується в результаті будь-якої конкретної дії користувача, наприклад при скролінгу сторінки або кліку на елементі.
- Враховуйте, що краулер MySitemapGenerator сканує лише посилання, які являють собою HTML-тег <a> з атрибутом "href". Це також стосується вмісту, який динамічно формується за допомогою JavaScript. Наші алгоритми не розпізнають і не обробляють будь-які інші елементи чи події, які функціонують як посилання, але не є відповідним HTML-тегом <a>. Це означає, що будь-які інші формати навігації не оброблятимуться, а відповідно й вміст, на який вони вказують.