Разработка: законы ципфа в поисковых роботах

Как поисковые роботы Интернета определяют естественность текста? Закон Ципфа для частотности употребления слов в языке, использование закона Зипфа поисковыми роботами при проверке контента. Нарушение синонимайзерами текстов законов Ципфа при синонимизации. Поисковые роботы и закон Зипфа.

Реклама и описание ресурсов - Работа с контентом - Поисковые системы плагиат

Поисковые роботы и закон Зипфа

Новомодным веянием среди строителей сайтов-сателлитов является синонимизация контента сайта. К их услугам имеются десятки баз синонимов, сотни различных синонимизаторов, которые вроде как умеют генерировать уникальный и читабельный контент для конечного пользователя. Конечно, здесь сильна доля преувеличения: для каких еще "конечных пользователей" предназначен переписанный машинным - а, значит, не лучшим образом, - текст, кроме, как поисковых роботов?! Рассмотрим, как же работают программы для синонимизации контента, и одну из главных "страшилок", которой пугают рерайтеров - ЗАКОН ЗИПФА (или закон Ципфа).

Синонимизация текста: как работает синонимайзер?

Практически все существующие сегодня синонимайзеры работают с контентом по одному и тому же базовому алгоритму - поиск и замены слов в тексте по базе синонимов. Результаты работы с текстами более-менее нормально написанных синонимайзеров зависят лишь от полноты и тематичности собранного словаря синонимов. И еще - от разумности его составления: хороший словарь синонимов - это не тот, который большой, а тот, который не коверкает словосочетания. Как утверждают авторы синонимизаторов, замена слов в тексте на синонимы разрушает шинглы и контент становится уникальным с точки зрения поисковых роботов. То, что тексты становятся не читаемым – их совершенно не смущает, поскольку, по их утверждениям, поисковые роботы сети Интернет не смогут это определить.

Давайте посмеемся вместе с создателями алгоритмов поисковых машин над этими утверждениями. Любая современная поисковая система может запросто определить, что ей подсунули: авторский уникальный контент, написанный полуграмотным пользователем, строгий научный труд или, упаси господи, синонимизированный текст – причем все это определяется гораздо проще, чем разбиением текстов на шинглы и подсчетом числа совпавших шинглов, или иными методами выявления неуникального контента (например, пассажами). Сейчас мы рассмотрим, как поисковики это делают, но прежде маленькая справка.

Кто такой Ципф, и что характеризует закон Ципфа?

В 1902 году родился George Kingsley Zipf (на русском читается как "Ципф" или "Зипф"). В последствии он получил хорошее образование и стал известным лингвистом и филологом, работая в Гарвардском университете. Необычайную известность ему принесло открытие закона, получившего потом его имя. Закон Зипфа (или Ципфа) - это эмпирическая закономерность распределения частоты слов в натуральном человеческом языке.

Законом Ципфа постулируется: если все слова естественного языка или достаточно длинного текста упорядочить по убыванию частоты их применения, то частота употребления слова N в этом перечне окажется обратно пропорциональной его порядковому номеру, так называемому рангу этого слова. То есть, второе по применяемости слово языка встречается примерно в 2 раза реже первого, третье - в 3 раза реже, чем первое, и так далее.

Кривые Зипфа выглядят как прямые линии, если их нарисовать на двойной логарифмической шкале. Простое и понятное описание лингвистических данных, подчиняющихся распределению Цыпфа, таково:

небольшое количество слов имеет очень высокий рейтинг
среднее количество слов имеет средний рейтинг частоты
огромное число слов обладает крайне низким рейтингом

На практике распределения Ципфа можно использовать для описания частоты употребления слов в естественном языке, на котором говорят и пишут люди:

в языке есть небольшое число слов, которые встречаются очень часто
есть достаточно большое количество слов, которые применяются часто
в языке изобилие слов, которые практически никогда не употребляются

Учитывает ли поисковик частоту употребления слов?

"Ну, и к чему все это?" - спросит недоверчивый оптимизатор, - "кто сказал, что поисковые роботы Интернета вообще интересует какое-то там распределение слов по частоте употребления?" Не говоря лишнего, отправляем их в панель управления для веб-мастеров Гугла или Яндекса. Ищем ключевые слова сайта... "О, боже мой! Оказываются, за нами все это время следили?!" Перед глазами - пресловутое распределение ключевых слов по частоте употребления на сайте.

Как это используется, рассмотрим чуть позже, пока же констатируем факт: поисковый робот отслеживают частоту использования слов по сайтам, а также какими словами ссылаются на сайт, и еще частоту запросов, по которым переходят посетители (так сказать, человеческая верификация их понимания естественности контента). То, что Вы видите перед глазами - ни что иное, как описанное товарищем Зипфом ранжирование слов по частоте применения.

Нда, интересное открытие... Заметьте: это лишь то, что менеджеры поисковых робот-систем посчитали нужным довести до веб-мастеров и SEO-оптимизаторов: дескать, не особо борзейте тут, у нас все ходы записаны! А сколько аналитики того же Гугла остается за кадром?

Использование закона Зипфа поисковыми роботами

После того, как список ключевых слов для сайта собран, поисковый робот проверяет ключевики по КОРПУСАМ СЛОВ. Дело в том, что для каждой тематики существует усредненная закономерность по частоте применения тех или иных слов. Эти распределения рассчитываются заранее по гигантским корпусам слов.

Если частотность ключевых слов на сайте или в отдельном документе заметно отличается от усредненного показателя по данному корпусу - то дело явно не в порядке, и неплохо бы трастовость сайта опустить, или, может быть, по совокупности всех факторов и фильтр какой применить.

Почему при синонимизации контента нарушается закон Зипфа?

Теперь давайте вспомним, как работают синонимизаторы контента. Они просто заменяют одно слово на другое, не задумываясь о частотности синонима. А как Вы думаете, какие вхождения слов чаще всего заменяются? Правильно, именно те, которые часто встречаются. А заменяются они синонимайзером на слова с менее выраженной частотностью. Таким образом частотность встречающихся слов становится не свойственной теме, и поисковые роботы Интернета могут вынести сайту предупреждение в виде снижение траста, выкидывания части страниц из основного индекса, или пессимизации в ранжировании по главным словам этого корпуса.

Таким образом, использование синонимизаторов текста, работающих с примитивными словарями – верная дорога к санкциям на сайт со стороны поисковых роботов. Выход – использовать синонимайзеры, заменяющих слова, основываясь на корпусах слов, и такие наработки есть в англоязычных высококонкурентных тематиках.

Как поисковые роботы определяют тематику сайта?

А как именно определяет тот же поисковый робот Google тематику сайта? Есть два очевидных факта, лежащих на поверхности, но о которых мало, кто из оптимизиторов задумывается. Во-первых, так называемый "каталог сайтов Гугла" – это слепок DMOZ-каталога. Во-вторых, сайты из каталога DMOZ являются более трастовыми.

Отсюда следует вывод: точное определение тематики сайта Google перекладывает на редакторов каталога DMOZ. Действительно, ручная модерация сайтов более точна, чем любые алгоритмы, потому и сайтам, включенным в каталог DMOZ, присваивается больший траст.

Предварительное же определение тематики сайта поисковие роботы производят по тем же частотным словарям, путем расчета пересечений множеств слов из тематических корпусов и найденных на сайте. Однако такое определение тематики может быть не совсем точным, потому и уровень траста у таких сайтов не высокий.

Выводов из этой статьи можно сделать много. Закон Ципфа - универсальная штука, которая широко применяется в поисковых роботах, и поэтому применяйте синонимизаторы для придания контенту уникальности осмотрительно.

Пассажи и алгоритмы пассажей. Как известно, поисковыми роботами контент проверяется на уникальность различными способами. Наряду с алгоритмами шинглов и проверкой на соответствие ...

Заголовки HTTP LastModified ETAG. Для управления кэшированием на стороне клиента (в данном случае - поисковых роботов) применяются HTTP-заголовки LastModified и Robot Header ...

Файл ROBOTS.TXT запрет роботов. Файл robots.txt сообщает поисковым роботам, разрешено или нет сканирование и индексация различных частей сайта. Этот текстовый файл должен ...