19:09 Как проверить, что робот принадлежит Яндексу | |
Некоторые роботы могут маскироваться под роботов Яндекса путем указания соответствующего User Agent. Вы можете проверить, что робот является тем, за кого себя выдает используя идентификацию, основанную на обратных DNS запросах (reverse DNS lookup). Для этого необходимо выполнить следующее: • Для интересующего user-agent определите IP адрес по логам вашего сервера. Все роботы Яндекса представляются с помощью заданных User Agent. • По полученному IP адресу определите доменное имя хоста, используя обратный DNS запрос. • После определения имени хоста, Вы можете проверить, принадлежит ли он Яндексу. Имена всех роботов Яндекса заканчиваются на 'yandex.ru', 'yandex.net' или 'yandex.com'. Если имя хоста имеет другое окончание, это означает, что робот не принадлежит Яндексу. • Напоследок удостоверьтесь в корректности полученного имени. Для этого нужно использовать прямой DNS запрос (forward DNS lookup), чтобы получить IP адрес, соответствующий имени хоста. Он должен совпадать с IP адресом, использованным при обратном DNS запросе. Если IP адреса не совпадают, это означает, что полученное имя хоста поддельное. Роботы Яндекса в логах сервера У Яндекса есть много роботов, которые представляются по-разному: • Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) — основной индексирующий робот. •Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexBot/3.0; +http://yandex.com/bots) — индексирующий робот. •Mozilla/5.0 (compatible; YandexAccessibilityBot/3.0; +http://yandex.com/bots) — скачивает страницы для проверки их доступности пользователям, особым образом интерпретирует robots.txt. •Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexMobileBot/3.0; +http://yandex.com/bots) — робот, определяющий страницы с версткой, подходящей под мобильные устройства, особым образом интерпретирует robots.txt. •Mozilla/5.0 (compatible; YandexRCA/1.0; +http://yandex.com/bots) — робот сервиса Rich Content API. •Mozilla/5.0 (compatible; YandexDirectDyn/1.0; +http://yandex.com/bots — робот генерации динамических баннеров, особым образом интерпретирует robots.txt. • Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) — индексатор Яндекс.Картинок. • Mozilla/5.0 (compatible; YandexVideo/3.0; +http://yandex.com/bots) — индексатор Яндекс.Видео. • Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) — робот, индексирующий мультимедийные данные. • Mozilla/5.0 (compatible; YandexBlogs/0.99; robot; +http://yandex.com/bots) — робот поиска по блогам, индексирующий комментарии постов. • Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots)— робот, индексирующий пиктограммы сайтов (favicons). • Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots)— робот сервиса Яндекс.Вебмастер. • Mozilla/5.0 (compatible; YandexPagechecker/1.0; +http://yandex.com/bots)— робот, обращающийся к странице при валидации микроразметки через форму Валидатор микроразметки. • Mozilla/5.0 (compatible; YandexImageResizer/2.0; +http://yandex.com/bots) — робот мобильных сервисов. • Mozilla/5.0 (compatible; YandexAdNet/1.0; +http://yandex.com/bots) — робот Рекламной сети Яндекса. • Mozilla/5.0 (compatible; YandexDirect/3.0; +http://yandex.com/bots) — скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы, особым образом интерпретирует robots.txt. • Mozilla/5.0 (compatible; YaDirectFetcher/1.0; Dyatel; +http://yandex.com/bots) — «простукивалка» Яндекс.Директа, проверяет корректность ссылок из объявлений перед модерацией. • Mozilla/5.0 (compatible; YandexCalendar/1.0; +http://yandex.com/bots) — робот Яндекс.Календаря, используется для синхронизации с другими календарями, особым образом интерпретирует robots.txt. • Mozilla/5.0 (compatible; YandexSitelinks; Dyatel; +http://yandex.com/bots) — «простукивалка» быстрых ссылок, используется для проверки доступности страниц, определившихся в качестве быстрых ссылок. • Mozilla/5.0 (compatible; YandexMetrika/3.0; +http://yandex.com/bots) — робот Яндекс.Метрики. • Mozilla/5.0 (compatible; YandexNews/3.0; +http://yandex.com/bots) — робот Яндекс.Новостей; • Mozilla/5.0 (compatible; YandexNewslinks; +http://yandex.com/bots) — «простукивалка» Яндекс.Новостей, используется для проверки ссылок из новостных материалов. • Mozilla/5.0 (compatible; YandexCatalog/3.0; +http://yandex.com/bots) — «простукивалка» Яндекс.Каталога, используется для временного снятия с публикации недоступных сайтов в Каталоге. • Mozilla/5.0 (compatible; YandexAntivirus/2.0; +http://yandex.com/bots) — антивирусный робот, который проверяет страницы на наличие опасного кода. • Mozilla/5.0 (compatible; YandexMarket/1.0; +http://yandex.com/bots) — робот Яндекс.Маркета. • Mozilla/5.0 (compatible; YandexVertis/3.0; +http://yandex.com/bots) — робот поисковых вертикалей. •Mozilla/5.0 (compatible; YandexForDomain/1.0; +http://yandex.com/bots) — Робот почты для домена, используется при проверке прав на владение доменом. • Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots) — робот, определяющий зеркала сайтов. IP-адресов, с которых «приходят» роботы Яндекса, тоже много, и они часто меняются. Поэтому мы не разглашаем их список и не рекомендуем использовать фильтрацию на их основе. источник: https://yandex.ru/support/webmaster/robot-workings/check-yandex-robots.xml | |
|
Всего комментариев: 0 | |