Web-сайты в Интернете: файл ROBOTS.TXT запрет роботов Запреты робота в файле роботс: как пользоваться robots.txt?
Файл robots.txt сообщает поисковым роботам, разрешено или нет сканирование и индексация различных частей сайта. Этот текстовый файл должен обязательно называться именно так - robots.txt (все с маленькой буквы), - и лежать в корневой директории сайта. Всегда полезно проверить, есть ли доступ к файлу роботс со стороны поисковых систем. Для этого достаточно в строке браузера ввести его URL-адрес, например, так: http://com-seo.ru/robots.txt (для этого сайта).
Как пользоваться файлом ROBOTS.TXT для запрета робота?
Все основные поисковые роботы понимают записи в файле robots.txt одинаково. Разберем для примера короткий пример, как пользоваться файлом роботс, который ставит запрет для роботов на доступ к файлам сайта:
User-agent: *
Dissallow: /images/
Disallow: /search
Этот пример запрещает всем поисковым роботам (указано символом *) доступ к директории сайта “images”, а также по всем файлам, путь к которым начинается со слова “search”. Как правило, запрет для поискового робота используется в тех случаях, когда веб-мастер считает, что некоторым страницам сайта не следует появляться в результатах выдачи поисковых систем, поскольку они бесполезны для посетителей.
Чтобы не ошибиться и не поставить поисковым роботам запреты на полезные директории и файлы, Гугл рекомендует использовать инструмент по проверке файла роботс из своей панели управления для веб-мастеров (Google Webmasters Tools, или сокращенно WMT). Если на сайте используются поддомены, и есть необходимость запретить сканирование отдельных фалов и директорий и на них, то файл robots.txt должен быть создан для каждого субдомена в отдельности и помещен в его корень.
Способы запрета индексации для роботов. Удаление страниц из Гугла.
Помимо запрета роботсом, есть и другие способы запретить индексацию для поисковых роботов. Например, поставить на странице мета-тег NOINDEX (не путать с чисто российским изобретением, просто тегом noindex внутри страницы!), или использовать соответствующие записи в файле .htaccess. Если неугодные страницы все же попали в индекс Гула, их можно оттуда удалить.
В этом видео-фрагмента Матт Каттс объясняет, как лучше закрыть страницы от Гугла, и как их удалять, если они все же туда попали, несмотря на запрет в file роботс.
Рекомендации Гугла по использованию файла РОБОТС.TXT
Для конфиденциальных страниц лучше пользоваться более надежными методами, чем запрет их сканирования файлом роботс.txt. Одна из причин к этому - то, что поисковые роботы Интернета все равно могут показать ссылку на запрещенную страницу (правда, ничего не прописывая в сниппете), если на нее найдутся ссылки в Интернете. Кроме того, есть поисковые системы, которые вообще не признают файл robots.txt и Robot Exclusion Standard (стандарт по исключению роботов). Наконец, излишне любознательные посетители сайта могут захотеть взглянуть, что именно прячет веб-мастер от индексации. Для всех этих случаев помогает либо кодирования запретных страниц, либо установка паролей для их просмотра. При использовании файла ROBOTS.TXT Гугол не рекомендует:
- оставлять для сканирования адреса с результатами поиска по сайту
- допускать к индексации большое число похожих по контенту страниц
- позволять индексировать страницы, созданные как результат прокси
Запреты робота в файле РОБОТС - очень полезный и нужным механизм для web-мастеров и оптимизаторов. В следующей статье мы рассмотрим, что означает атрибут REL=NOFOLLOW для ссылок и почему следует применять ссылки с rel=”nofollow”, когда нет уверенности в надежности веб-ресурса.
Файл ROBOTS.TXT запрет роботов | |
|
Создание раскрутка сайта- Файл ROBOTS.TXT запрет роботов
Web-поиск по сайту о СЕО:- Гугол помогает оптимизаторам
-
SEO-оптимизация раскрутка 125009 город Москва (Moscow) ул.Тверская 6 (Tverskaya 6) Россия (Российская Федерация)Заказ рекламы: +7(903)277-20-20
|