Индексация сайта
- Какие виды корневых URL сайтов допустимы?
- Какие формы корневых URL допустимы для указания языковых версий сайта?
- Какие протоколы передачи данных поддерживаются роботом?
- Какие кодировки веб-страниц поддерживаются роботом?
- Будут ли учтены запреты индексации, прописанные в robots.txt?
- Что такое скрытые страницы (Deep Web) и как добавить их в Sitemap?
- Что будет с ссылками, запрещенными для индексации?
- Как будут обработаны веб-страницы, на которых используються метатеги robots или заголовки X-Robots-Tag?
- Как робот обрабатывает внутрихостовые серверные редиректы?
- Обрабатывает ли робот канонические ссылки (rel=canonical)?
- Обрабатывает ли робот AJAX-ссылки (hashbang)
- Обработка и удаление phpsessid и sessionID (идентификаторы сессий PHP- и ASP-приложений)
- Какую информацию содержит отчет об ошибках, создаваемый при индексации веб-сайта?
- Могу ли я преждевременно остановить процесс индексации сайта?
- Выбор оптимальной скорости индексации и уровня нагрузки на Ваш веб-сервер
- Возможно ли индексировать сайт "глазами поисковых роботов"?
- Обработка содержимого, динамически формируемого с помощью JavaScript
Какие виды корневых URL сайтов допустимы?
При запуске, сервис принимает в обработку только такие формы URL, которые представляют собой доменное имя и могут содержать указание на языковую версию. При этом домен может быть любого уровня.
- Международные домены (gTLD)
- Интернационализованные домены (IDN)
- Национальные домены (ccTLD)
Наш сервис принимает в обработку арабские, индийские и кириллические домены, включая зоны .РФ, .РУС, .МОСКВА, .УКР, .БЕЛ, .СРБ, .БГ.
Примеры URL:
- http://mydomain.com
- http://sub.mydomain.ru
- http://ваш-домен.рф
Какие формы корневых URL допустимы для указания языковых версий сайта?
Поддерживается только один формат языковой версии, который является эквивалентом корневой папки веб-сайта и может состоять из одного или, при необходимости, двух значений, разделенных дефисом. Первый - двузначный код языка в формате ISO 639-1, за которым может следовать необязательный второй код, представляющий код региона в формате ISO 3166-1 Alpha 2.
Примеры допустимых URL для языковых версий:
- http://mydomain.com/en
- http://mydomain.com/en-US
Какие протоколы передачи данных поддерживаются роботом?
Mysitemapgenerator поддерживает протоколы HTTP и HTTPS.
Обратите внимание на то, что согласно спецификации протокола XML Sitemaps, индексация сайта и формирование данных проводятся только в указаном протоколе передачи данных.
Какие кодировки веб-страниц поддерживаются роботом?
Список поддерживаемых кодировок: uft-8, windows-1251, koi8-r. В режиме турбо так же поддерживаются: utf-16, utf-32.
В большинстве случаев наш робот может автоматически определить кодировку, даже если Ваш сервер не возвращает соответствующую информацию или возвращает ее не правильно.
Будут ли учтены запреты индексации, прописанные в robots.txt?
Опционально, по умолчанию эта опция активна. При отмеченной опции робот учитывает инструкции Allow и Disallow общей секции User-agent: *
Так же, Вы можете создать отдельную секцию для нашего робота:
User-agent: Mysitemapgenerator
«Персональные» секции (User-agent: Googlebot или User-agent: Yandex) учитываются только при выборе соответствующего варианта идентификации краулера в качестве поискового робота.
Ниже приведен пример файла robots.txt с использованием различных секций:
#Запрещает всем роботам индексацию директории User-agent: * Disallow: /noindex-directory/ #Запрещает роботу Google индексацию отдельной страницы User-agent: Googlebot Disallow: /noindex-directory/disallow-google.html #Запрещает роботу Яндекса индексацию директории #Но разрешает индексацию отдельной страницы User-agent: Yandex Disallow: /noindex-directory/ Allow: /noindex-directory/allow-yandex.html #Запрещает роботу Mysitemapgenerator индексацию директории #Но разрешает индексацию всех страниц из этой директории #с расширением .html User-agent: Mysitemapgenerator Disallow: /noindex-directory/ Allow: /noindex-directory/*.html
Что такое скрытые страницы (Deep Web) и как добавить их в Sitemap?
Deep Web («невидимая паутина» - рус.) – веб-страницы, неиндексируемые поисковыми системами по причине отсутствия на них гиперссылок с доступных страниц. Например – это страницы, генерируемые через интерфейсы HTML-форм или содержимое фреймов.
Если Вы хотите обнаружить и включить такие страницы в Sitemap, отметьте нужные опции:
- «Индексировать формы» (сабмит происходит без заполнения);
- «Индексировать фреймы» (содержимое <frameset> и <iframe>).
Что будет с ссылками, запрещенными для индексации?
При включенной соответствующей опции такие ссылки индексироваться не будут. По умолчанию опция активна.
Кроме того, при необходимости, Вы всегда можете применить обработку только noindex или только nofollow независимо друг от друга.
Виды nofollow ссылок:
- HTML-ссылки, содержащие атрибут nofollow
- URL, которые запрещены в файле robots.txt
- Ссылки, которые находится на веб-странице с Robots-тегом nofollow
Как робот обрабатывает внутрихостовые серверные редиректы?
Робот распознает следующие стандартные коды состояния HTTP:
- 301 Moved Permanently (Перемещено окончательно)
- 302 Found (Временное перенаправление).
- 303 See Other (Смотрите другой ресурс).
- 307 (Временное перенаправление)
Робот не обрабатывает: перенаправление страницы на саму себя, цепи перенаправлений, перенаправление на внешний url.
Обрабатывает ли робот канонические ссылки (rel=canonical)?
Да, для этого достаточно отметить соответствующую опцию «Обрабатывать и консолидировать канонические ссылки». При включении соответствующей опции робот будет учитывать указания канонических ссылок, а неканонические ссылки будут исключены из результатов индексации.
Наш робот одинаково обрабатывает* инструкции в HTML-коде, а так же HTTP-заголовки.
Пример указания канонической ссылки в HTML (помещается в раздел <head> неканонических версий страницы):
<link rel="canonical" href="http://www.website.tld/canonical_page.html"/>
Link: <http://www.website.tld/canonical_page.html>; rel="canonical"
Обрабатывает ли робот AJAX-ссылки (hashbang)
Да, для этого достаточно отметить соответствующую опцию «индексировать AJAX-ссылки».
Каждая индексируемая AJAX-ссылка должна иметь HTML-версию, которая доступна по адресу, в котором сочетание «#!» заменено на параметр «?_escaped_fragment_=».
В AJAX-ссылках робот заменяет сочетание #! на параметр ?_escaped_fragment_= и обращается к странице по измененному URL.
Cсылки, содержащие hashbang (#!), используются при создании Sitemap в исходном виде.
Обработка и удаление phpsessid и sessionID (идентификаторы сессий PHP- и ASP-приложений)
В процессе индексации Ваш сайт может формировать идентификаторы сессий. Наш сканер обрабатывает и удаляет идентификаторы сессий. В файл Sitemap ссылки будут занесены "чистыми", без идентификаторов передаваемых в URL - phpsessid (для PHP) или объектов sessionID (для ASP).
Это позволяет избежать попадания в Sitemap дубликатов ссылок, когда робот получает одну и ту же страницу под различными URL.
Пример идентификатора сессии в PHP:
http://website.tld/page.html?PHPSESSID=123456session6789
http://website.tld/(S(123456session6789))/page.html
http://website.tld/page.html
Какую информацию содержит отчет об ошибках, создаваемый при индексации веб-сайта?
В случае, если наш робот столкнется с затруднениями или препятствиями в процессе индексации Вашего веб-сайта, для Вас будет сформирован подробный отчет.
В отчете Вы сможете увидеть сгруппированные списки страниц с описанием ошибок, среди которых – «Страница не найдена», внутренние ошибки сервера и др.
Помимо ошибок, в отчете будут предоставлены сведения о всех обнаруженных серверных редиректах.
Формирование отчетов об ошибках доступно в платных версиях генератора.
Могу ли я преждевременно остановить процесс индексации сайта?
Такая возможность есть у зарегистрированных пользователей. В персональном аккаунте отображена информация обо всех Ваших созданных файлах, а так же информация о веб-сайтах, которые индексируются в данный момент. Для того, чтобы прервать процесс индексации, не дожидаясь завершения обхода всего сайта, нажмите кнопку «Остановить». В этом случае Вы получите файл, сгенерированный только на основе страниц, которые были проиндексированы на момент остановки.
Выбор оптимальной скорости индексации и уровня нагрузки на Ваш веб-сервер
В опциях сканера доступны три уровня скорости индексации, создающие соответствующие уровни нагрузки на индексируемый сервер:
- Максимум - Если у Вас качественный платный хостинг, скорее всего, Вам незачем беспокоится о создаваемой нагрузке в процессе индексации Вашего сайта. Рекомендуем использовать именно это значение нагрузки, которое позволяет проиндексировать Ваш сайт на максимально быстро.
- Средняя – Данный уровень нагрузки используется по умолчанию и подходит для большиства современных веб-серверов и хостинг-провайдеров.
- Минимум – Уровень нагрузки, который позволяет проиндексировать Ваш сайт, создавая минимальную нагрузку на сервер. Данный уровень нагрузки рекомендуем использовать для индексации сайтов, расположенных на бесплатном хостинге или для сайтов, требующих значительных ограничений к входящему трафику. Однако обратите внимание, что данный уровень может значительно замедлить процесс индексации Вашего сайта.
Рекомендуем выбирать наиболее подходящий режим скорости индексации, учитывая особенности Вашего хостинг-сервера.
Возможно ли индексировать сайт "глазами поисковых роботов"?
Вы можете выбрать один из вариантов идентификации нашего краулера, производящего индексацию сайта:
- Стандартный браузер – данный способ используется по умолчанию и является рекомендуемым. Ваш сайт будет загружаться в том же виде, что и обычными посетителям
- YandexBot – данный способ позволяет индексировать Ваш сайт «глазами поискового робота» Яндекс. Наш Краулер будет обозначен как основной индексирующий робот Яндекса (YandexBot/3.0)
- Googlebot – данный способ позволяет индексировать Ваш сайт «глазами поискового робота» Google. Краулер будет обозначен как робот веб-поиска Google (Googlebot/2.1)
- Baiduspider - поисковый робот Baidu
- Mysitemapgenerator – используйте прямой способ идентификации нашего робота если Вам требуются особые настройки контроля и управления доступом к веб-сайту
- При выборе опций «YandexBot», «GoogleBot», «Baiduspider» или «Mysitemapgenerator» в файле robots.txt производится поиск наиболее релевантной секции. Если в файле присутствует секция, предназначенная для определенного робота - учитываются только директивы, соответствующие конкретному роботу (User-agent: Yandex, User-agent: Googlebot или User-agent: Mysitemapgenerator – соответственно).
Общие директивы секции User-agent: * будут использованы только в случае отсутствия «персональных». - Если Вы используете опцию «Стандартный браузер» - робот будет учитывать только инструкции секции Mysitemapgenerator, а при ее отсутствии - общей секции User-agent: *. «Персональные» секции User-agent: Yandex, User-agent: Googlebot и др. в этом случае не учитываются.
Обработка содержимого, динамически формируемого с помощью JavaScript
Если ваш веб-сайт использует JavaScript для генерации основной части контента (это также называется отрисовкой на стороне клиента), наш краулер будет пытаться обработать динамическое содержание веб-страницы (если такая необходимость будет определена автоматически или опция обработки Javascript будет включена в настройках), однако многие алгоритмы JavaScript могут не быть обработаны.
Ограничения обработки Javascript:
- Обратите внимание, что наш краулер не загружает и не обрабатывает JavaScript-код из внешних источников, имя хоста (домен) которых отличается от домена веб-сайта, например скрипты, загружаемые из CDN или API-серверов.
- Наш краулер не обрабатывает содержимое, которое динамически формируется при определенных действиях пользователя, например при скроллинге страницы или при клике на элементе.
- Учитывайте, что краулер MySitemapGenerator сканирует только ссылки, которые представляют собой HTML-тег <a> с атрибутом "href", это также применимо и к содержимому, которое динамически формируется с помощью JavaScript. Наши алгоритмы не распознают и не обрабатывают любые другие элементы или события, которые функционируют как ссылки, но не являются соответствующим HTML-тегом <a>. Это означает, что любые другие форматы навигации не будут обработаны, а значит и контент, на который они ведут.