Создание: метод шинглов и описательных слов


Как поисковые системы проверяют контент на уникальность? Шинглы и описательные слова: проверка текстов методом шинглов и с помощью набора описательных слов. Другие признаки, выдающие синонимизированный текст, советы по синонимизации контента. Шинглы и описательные слова.
Провека уникальности шинглами
Продажа сайта
Создание блогов

Шинглы и описательные слова

Как поисковые системы проверяют уникальность контента? Существует несколько методик и принципов проверки текста на уникальность, по которым поисковая система отсеивает некачественный или дублированный контент. В этой статье мы расскажем об основных методах из арсенала поисковых систем - методе шинглов и способе проверки текста на уникальность выборкой из описательных слов.

Метод шинглов: проверка уникальности шинглами

Метод шинглов разработан Андреем Бродером в 1997 году. Свое название шингл получил из-за того, что разбивает текст на кусочки - ШИНГЛЫ (по-английски "shingles" – это чешуйки, черепички). Удобство способа проверки шинглами состоит в том, что он позволяет сначала описать текст, заменяя каждый шингл контрольной суммой в двоичном коде, а затем сравнительно оперативно сопоставить эти коды шинглов - ведь с числами работать куда проще и быстрее, чем со словами и фразами!

Допустим, имеется текст для проверки “Попробуем обмануть метод шинглов, подсунув не содержащий уникальности контент?”. Отбрасывается все лишнее (табуляции, пробелы, знаки препинания), в итоге останется “попробуем обмануть метод шинглов подсунув не содержащий уникальности контент”. Затем текст делится на шинглы (обычно поисковики применяют длину шингла в 4 или 5, берем четыре):

  • попробуем обмануть метод шинглов
  • обмануть метод шинглов подсунув
  • метод шинглов подсунув не
  • шинглов подсунув не содержащий
  • подсунув не содержащий уникальности
  • не содержащий уникальности контент

Заметьте, что шинглы строятся внахлест - это гарантирует, что поисковая системе при проверке не пропустит ни единой подстроки контента, что очень важно в процессе нахождения копий. Наконец, остается последнее - сравнить шинглы у разных текстов. Кто знаком, как строятся индексы у базы данных, тот сразу сообразит, как это производится с наименьшими затратами машинных ресурсов. Чем меньше шинглов совпало - тем больше вероятность того, что текст является уникальным.

Проверка контента методом описательных слов

Описательные слова (Descriptive Words) - довольно изящный способ формализовать текст для его последующей проверки на копирование. Суть метода проверки описательными словами заключается в том, что формируется выборка объемом в 2...3 тысячи слов. Эта выборка должна соответствовать следующим задачам:

  • она должна описывать почти любой документ в сети
  • описание должно быть минимальным и не избыточным
  • совокупность векторов описательных слов уникальна

Для построения выборки из описательный слов отбрасываются все стоп-слова, различные узко-специализированные термины и очень редкие слова (такие, как “конъюнктивообразность”) и прилагательные. Затем каждая страница с текстом сопоставляется с выборкой, и рассчитывается вектор совпадения, размерность которого равна объему выборки. Уникальность контент определяется путем сравнения этих векторов.

Что выдает явно синонимизированный контент?

Рассмотрим основные признаки, по которым поисковики распознают синонимизированный контент, в дополнении к четко формализованным методам шинглов и описательных слов:

1. Наличие в контенте несогласованных друг с другом слов по родам, числам, падежам (“этот шинглы обмануть массивно” и прочее). Такое бывает при использовании не качественных баз синонимов.

2. Большое количество низкочастотных (редко употребляемых) слов, поскольку в базе синонимов ключевому слову часто соответствуют низкочастотные слова (например, "продвижение" – "промоутерство").

Для того, чтобы синонимизированные тексты с высокой вероятностью проходили проверку на уникальность и попадали в индекс поисковых систем, следует придерживаться следующих правил:

  • заменять как можно больший процент устойчивых фраз и выражений
  • избегать замены высокочастотных слов на редко встречающиеся текст
  • не допускать появления в тексте несогласованных друг с другом слов
  • стараться разбавить текст различными новыми словами и оборотами

Следует отметить и тот факт, что перемешка абзацев текста не даст заметного прироста уникальности тексту. Перестановка предложений работет несколько лучше, но при таком способе обмана поисковых систем получается плохо читаемый текст.

Шинглы и описательные слова
SEO для вебсайта
Ссылка на страницу: http://com-seo.ru/proverka-text-shingl-slova-words-kontent-shingles.html © 2013 Москва Россия