Шинглы и описательные слова
Как поисковые системы проверяют уникальность контента? Существует несколько методик и принципов проверки текста на уникальность, по которым поисковая система отсеивает некачественный или дублированный контент. В этой статье мы расскажем об основных методах из арсенала поисковых систем - методе шинглов и способе проверки текста на уникальность выборкой из описательных слов.
Метод шинглов: проверка уникальности шинглами
Метод шинглов разработан Андреем Бродером в 1997 году. Свое название шингл получил из-за того, что разбивает текст на кусочки - ШИНГЛЫ (по-английски "shingles" – это чешуйки, черепички). Удобство способа проверки шинглами состоит в том, что он позволяет сначала описать текст, заменяя каждый шингл контрольной суммой в двоичном коде, а затем сравнительно оперативно сопоставить эти коды шинглов - ведь с числами работать куда проще и быстрее, чем со словами и фразами!
Допустим, имеется текст для проверки “Попробуем обмануть метод шинглов, подсунув не содержащий уникальности контент?”. Отбрасывается все лишнее (табуляции, пробелы, знаки препинания), в итоге останется “попробуем обмануть метод шинглов подсунув не содержащий уникальности контент”. Затем текст делится на шинглы (обычно поисковики применяют длину шингла в 4 или 5, берем четыре):
- попробуем обмануть метод шинглов
- обмануть метод шинглов подсунув
- метод шинглов подсунув не
- шинглов подсунув не содержащий
- подсунув не содержащий уникальности
- не содержащий уникальности контент
Заметьте, что шинглы строятся внахлест - это гарантирует, что поисковая системе при проверке не пропустит ни единой подстроки контента, что очень важно в процессе нахождения копий. Наконец, остается последнее - сравнить шинглы у разных текстов. Кто знаком, как строятся индексы у базы данных, тот сразу сообразит, как это производится с наименьшими затратами машинных ресурсов. Чем меньше шинглов совпало - тем больше вероятность того, что текст является уникальным.
Проверка контента методом описательных слов
Описательные слова (Descriptive Words) - довольно изящный способ формализовать текст для его последующей проверки на копирование. Суть метода проверки описательными словами заключается в том, что формируется выборка объемом в 2...3 тысячи слов. Эта выборка должна соответствовать следующим задачам:
- она должна описывать почти любой документ в сети
- описание должно быть минимальным и не избыточным
- совокупность векторов описательных слов уникальна
Для построения выборки из описательный слов отбрасываются все стоп-слова, различные узко-специализированные термины и очень редкие слова (такие, как “конъюнктивообразность”) и прилагательные. Затем каждая страница с текстом сопоставляется с выборкой, и рассчитывается вектор совпадения, размерность которого равна объему выборки. Уникальность контент определяется путем сравнения этих векторов.
Что выдает явно синонимизированный контент?
Рассмотрим основные признаки, по которым поисковики распознают синонимизированный контент, в дополнении к четко формализованным методам шинглов и описательных слов:
1. Наличие в контенте несогласованных друг с другом слов по родам, числам, падежам (“этот шинглы обмануть массивно” и прочее). Такое бывает при использовании не качественных баз синонимов.
2. Большое количество низкочастотных (редко употребляемых) слов, поскольку в базе синонимов ключевому слову часто соответствуют низкочастотные слова (например, "продвижение" – "промоутерство").
Для того, чтобы синонимизированные тексты с высокой вероятностью проходили проверку на уникальность и попадали в индекс поисковых систем, следует придерживаться следующих правил:
- заменять как можно больший процент устойчивых фраз и выражений
- избегать замены высокочастотных слов на редко встречающиеся текст
- не допускать появления в тексте несогласованных друг с другом слов
- стараться разбавить текст различными новыми словами и оборотами
Следует отметить и тот факт, что перемешка абзацев текста не даст заметного прироста уникальности тексту. Перестановка предложений работет несколько лучше, но при таком способе обмана поисковых систем получается плохо читаемый текст.
|