Разработка: законы ципфа в поисковых роботах


Как поисковые роботы Интернета определяют естественность текста? Закон Ципфа для частотности употребления слов в языке, использование закона Зипфа поисковыми роботами при проверке контента. Нарушение синонимайзерами текстов законов Ципфа при синонимизации. Поисковые роботы и закон Зипфа.
Проверка контента роботами
Описание сайта
Разработка форумов

Поисковые роботы и закон Зипфа

Новомодным веянием среди строителей сайтов-сателлитов является синонимизация контента сайта. К их услугам имеются десятки баз синонимов, сотни различных синонимизаторов, которые вроде как умеют генерировать уникальный и читабельный контент для конечного пользователя. Конечно, здесь сильна доля преувеличения: для каких еще "конечных пользователей" предназначен переписанный машинным - а, значит, не лучшим образом, - текст, кроме, как поисковых роботов?! Рассмотрим, как же работают программы для синонимизации контента, и одну из главных "страшилок", которой пугают рерайтеров - ЗАКОН ЗИПФА (или закон Ципфа).

Синонимизация текста: как работает синонимайзер?

Практически все существующие сегодня синонимайзеры работают с контентом по одному и тому же базовому алгоритму - поиск и замены слов в тексте по базе синонимов. Результаты работы с текстами более-менее нормально написанных синонимайзеров зависят лишь от полноты и тематичности собранного словаря синонимов. И еще - от разумности его составления: хороший словарь синонимов - это не тот, который большой, а тот, который не коверкает словосочетания. Как утверждают авторы синонимизаторов, замена слов в тексте на синонимы разрушает шинглы и контент становится уникальным с точки зрения поисковых роботов. То, что тексты становятся не читаемым – их совершенно не смущает, поскольку, по их утверждениям, поисковые роботы сети Интернет не смогут это определить.

Давайте посмеемся вместе с создателями алгоритмов поисковых машин над этими утверждениями. Любая современная поисковая система может запросто определить, что ей подсунули: авторский уникальный контент, написанный полуграмотным пользователем, строгий научный труд или, упаси господи, синонимизированный текст – причем все это определяется гораздо проще, чем разбиением текстов на шинглы и подсчетом числа совпавших шинглов, или иными методами выявления неуникального контента (например, пассажами). Сейчас мы рассмотрим, как поисковики это делают, но прежде маленькая справка.

Кто такой Ципф, и что характеризует закон Ципфа?

В 1902 году родился George Kingsley Zipf (на русском читается как "Ципф" или "Зипф"). В последствии он получил хорошее образование и стал известным лингвистом и филологом, работая в Гарвардском университете. Необычайную известность ему принесло открытие закона, получившего потом его имя. Закон Зипфа (или Ципфа) - это эмпирическая закономерность распределения частоты слов в натуральном человеческом языке.

Законом Ципфа постулируется: если все слова естественного языка или достаточно длинного текста упорядочить по убыванию частоты их применения, то частота употребления слова N в этом перечне окажется обратно пропорциональной его порядковому номеру, так называемому рангу этого слова. То есть, второе по применяемости слово языка встречается примерно в 2 раза реже первого, третье - в 3 раза реже, чем первое, и так далее.

Кривые Зипфа выглядят как прямые линии, если их нарисовать на двойной логарифмической шкале. Простое и понятное описание лингвистических данных, подчиняющихся распределению Цыпфа, таково:

  • небольшое количество слов имеет очень высокий рейтинг
  • среднее количество слов имеет средний рейтинг частоты
  • огромное число слов обладает крайне низким рейтингом

На практике распределения Ципфа можно использовать для описания частоты употребления слов в естественном языке, на котором говорят и пишут люди:

  • в языке есть небольшое число слов, которые встречаются очень часто
  • есть достаточно большое количество слов, которые применяются часто
  • в языке изобилие слов, которые практически никогда не употребляются

Учитывает ли поисковик частоту употребления слов?

"Ну, и к чему все это?" - спросит недоверчивый оптимизатор, - "кто сказал, что поисковые роботы Интернета вообще интересует какое-то там распределение слов по частоте употребления?" Не говоря лишнего, отправляем их в панель управления для веб-мастеров Гугла или Яндекса. Ищем ключевые слова сайта... "О, боже мой! Оказываются, за нами все это время следили?!" Перед глазами - пресловутое распределение ключевых слов по частоте употребления на сайте.

Как это используется, рассмотрим чуть позже, пока же констатируем факт: поисковый робот отслеживают частоту использования слов по сайтам, а также какими словами ссылаются на сайт, и еще частоту запросов, по которым переходят посетители (так сказать, человеческая верификация их понимания естественности контента). То, что Вы видите перед глазами - ни что иное, как описанное товарищем Зипфом ранжирование слов по частоте применения.

Нда, интересное открытие... Заметьте: это лишь то, что менеджеры поисковых робот-систем посчитали нужным довести до веб-мастеров и SEO-оптимизаторов: дескать, не особо борзейте тут, у нас все ходы записаны! А сколько аналитики того же Гугла остается за кадром?

Использование закона Зипфа поисковыми роботами

После того, как список ключевых слов для сайта собран, поисковый робот проверяет ключевики по КОРПУСАМ СЛОВ. Дело в том, что для каждой тематики существует усредненная закономерность по частоте применения тех или иных слов. Эти распределения рассчитываются заранее по гигантским корпусам слов.

Если частотность ключевых слов на сайте или в отдельном документе заметно отличается от усредненного показателя по данному корпусу - то дело явно не в порядке, и неплохо бы трастовость сайта опустить, или, может быть, по совокупности всех факторов и фильтр какой применить.

Почему при синонимизации контента нарушается закон Зипфа?

Теперь давайте вспомним, как работают синонимизаторы контента. Они просто заменяют одно слово на другое, не задумываясь о частотности синонима. А как Вы думаете, какие вхождения слов чаще всего заменяются? Правильно, именно те, которые часто встречаются. А заменяются они синонимайзером на слова с менее выраженной частотностью. Таким образом частотность встречающихся слов становится не свойственной теме, и поисковые роботы Интернета могут вынести сайту предупреждение в виде снижение траста, выкидывания части страниц из основного индекса, или пессимизации в ранжировании по главным словам этого корпуса.

Таким образом, использование синонимизаторов текста, работающих с примитивными словарями – верная дорога к санкциям на сайт со стороны поисковых роботов. Выход – использовать синонимайзеры, заменяющих слова, основываясь на корпусах слов, и такие наработки есть в англоязычных высококонкурентных тематиках.

Как поисковые роботы определяют тематику сайта?

А как именно определяет тот же поисковый робот Google тематику сайта? Есть два очевидных факта, лежащих на поверхности, но о которых мало, кто из оптимизиторов задумывается. Во-первых, так называемый "каталог сайтов Гугла" – это слепок DMOZ-каталога. Во-вторых, сайты из каталога DMOZ являются более трастовыми.

Отсюда следует вывод: точное определение тематики сайта Google перекладывает на редакторов каталога DMOZ. Действительно, ручная модерация сайтов более точна, чем любые алгоритмы, потому и сайтам, включенным в каталог DMOZ, присваивается больший траст.

Предварительное же определение тематики сайта поисковие роботы производят по тем же частотным словарям, путем расчета пересечений множеств слов из тематических корпусов и найденных на сайте. Однако такое определение тематики может быть не совсем точным, потому и уровень траста у таких сайтов не высокий.

Выводов из этой статьи можно сделать много. Закон Ципфа - универсальная штука, которая широко применяется в поисковых роботах, и поэтому применяйте синонимизаторы для придания контенту уникальности осмотрительно.

Поисковые роботы и закон Зипфа
SEO для вебсайта
Ссылка на страницу: http://com-seo.ru/poisk-robot-zakon-zipfa-proverka-text-kontenta.html © 2013 Москва Россия