Программирование: определение уникальности контента

Как поисковые системы определяют копированный контент и плагиат? Методы определения уникальности контента, отсева дорвеев и плохо выполненных рерайтов: шинглы и ключевые описательные слова. Проверка сайта на уникальность контента методом шинглов и описательных слов. Как узнают копированный контент.

Программирование блогов - Содержание наполнение сайтов, контент тексты графика

Как узнают копированный контент

В последние годы сеть Интернет катострофически стала забиваться слегка модифицированным (такой условно-уникальный контент называется "рерайтом"), а то и откровенно копированным контентом ("копипастом"). Разумеется, поисковые системы Google и Яндекс не собираются мириться с таким положением дел. Чтобы выдача по поисковым запросам состояла из как можно большего числа ценных для пользователей страниц, они по ряду признаков узнают копированный контент и исключают такие страницы из выдачи. По мнению поисковиков, содержание сайта должно быть УНИКАЛЬНЫМ и ПОЛЕЗНЫМ. Дублированный контент, даже страницы с обилием "нечетких дублей" (так называют фрагменты текста, повторяющиеся несколько раз в пределах сайта), уже никогда не будет ранжироваться высоко - времена уже не те. В этой статье рассматриваются способы, как поисковые системы отличают уникальный и полезный контент от скопированного плагиата или не нужного посетителям текста.

Полезность и уникальность контента - два критерия ПС

Для многих будет открытием, что поисковые системы Интернета (ПС) определяют и то, и другое. Не каждый уникальный контент полезен, и не все слабо-уникальные контенты бесполезны! Иначе места в ТОПе новостных сайтов с дублированными на 90% сообщениями заняли бы дорвеи со стопроцентно уникальными текстами на страницах, написанными в духе пациентов Кащенко. Например, эта статья и уникальна, и объективно полезна: она пишется, что называется, "из головы", узнаваемым авторским стилем, и содержит уникальную, нигде ранее не встречавшуюся информацию. А сенсационная новость с первой полосы Интерфакса, перепечатанная на блоге Васи Пупкина? Она, конечно, полезна для читателей блога, но не уникальна в глазах поисковых систем. С другой стороны, повествование о том, как он с утра пролил кофе на клавиатуру, и поэтому решил написать об этом, вряд ли будет полезно кому-нибудь, кроме людей с аналогичными проблемами, хотя и на 100% уникально.

Поисковые системы плагиат и копипаст обнаруживают очень эффективно.

Если с проверкой уникальности контента и определением плагиата поисковые системы научились справляться достаточно давно, просто в массовом масштабе применили это для ранжирования лишь в конце 2009 года, то с полезностью текстов все не так очевидно. Такой анализ отдельной страницы на полезный контент невозможен без знания структуры всего сайта, определения его тематики и важнейших ключевых слов (семантического ядра). Кстати: "ключевые слова" в понимании поисковых систем - это не те слова, по которым веб-мастер хочет продвинуть сайт, а те, которые чаще всего встречаются на его страницах и в анкорах внешних ссылок. Можно считать, что проверка контента на полезность находится в стадии становления, но ее результаты уже учитываются поисковиками при ранжировании.

Определение копированного контента методом шинглов

Как поисковики определяют копированный контент, а точнее, степень его уникальности? Метод шинглов позволяет формализовать этот процесс, делая его к тому же и достаточно быстрым. Для этого текст разбивается на ШИНГЛЫ - связанные фрагменты фиксированной длины (4 или 5 слов), и для каждого из них считается контрольная сумма - проще и быстрее работать с бинарными числами, чем с фрагментами строк. Далее эти числа заносятся в базу данных и им присваиваются индексы. Таким образом текст полностью фомализуется и становится удобным для анализа на степень похожести.

Уникальность контента определяется не качественно, а количественно!

Любая современная СУБД (система управления базами данных) умеет очень быстро и с минимальными затратами находить и сравнивать индексированные записи в таблицах, тем более, если это числа. Написать статью по популярной тематике, у которой ни один шингл не совпал бы с уже имеющимися - задача принципиально невозможная. Но если при этом обнаруживается, что у двух страниц Интернета шинглы совпадают на 90%, то, вне всякого сомнения, обнаружен копированный контент на сайте. Как в таких случаях происходит ранжирование, и как учесть метод шинглов при обработке текста - это отдельные вопросы, которые будут освещаться в дочерних статьях по поиску и обнаружению плагиата, сейчас же нам важно составить первичное представление о механизме опреденения уникального или копированного контента поисковыми системами.

Как поисковые системы узнают бесполезный контент?

Начнем с того, что они это делают. От этого стонут рерайтеры (с копипастерами расправились уже на предыдущем этапе), пребывают в недоумении многие SEO-оптимизаторы, а некоторые, поняв далеко не очевидный принцип оценки полезности текстов, довольно потирают руки и бесплатно продвигают свои сайты в ТОП, казалось бы, ни на чем. Как же алгоритмы поисковиков устанавливают, полезен или нет тот или иной текст? А примерно так же, как и люди: сравнивая образец с тем, что привыкли видеть до этого. Своего рода текст на чрезмерную "уникальность".

Как поисковики вычисляют машинно-генерированный контент?

Человек даже беглым просмотром отличает дорвей от нормального сайта, тексты на котором написаны человеком. Никогда не задумывались, как он это делает? А если дорвей написан на китайском, и при этом имеет приличный дизайн - многие ли отличат? Люди узнают фальшивку по неприемлимо большому количеству нечеловеческих словосочетаний, например "этот поисковые системы способствует разница контент". Самые ушлые догадаются даже, какую фразу пытались синонимизировать. А поисковая система и не собирается гадать: как только процент подобных оборотов существенно превысил максимально возможное количество ошибок, которые свойственно делать людям, принимается решение, что такой текст никому не полезен и не нужно его показывать в выдаче. Если сайт уж очень сильный, то следует один беглый взгляд асессора - и нажимается красная кнопка "бан".

Как поисковые системы отлавливают плохо сделанные рерайты?

Долгие годы эта задача была не по зубам создателям алгоритмов индексации и ранжирования, но этой осенью Гугол показал, что и это он способен решить (а вот Яндекс - пока что нет). Плохо сделанные рерайты он отлавливает методом описательных слов. Для этого отбрасываются редкие и очень короткие слова, все прилагательные, а по остальным собирается статистика как со всего сайта в целом, так и с проверяемой страницы.

Сгенерированными текстами и плохими рерайтами поисковик не обманешь!

Если вычищенное таким образом семантическое ядро страницы в целом соответствует тематике сайта, и если в Интернете не находится текста, который уж очень сильно напоминает эту выборку, и если частота словоформ примерно соответствует статистике для данного языка - то никаких подозрений не возникает, можно спокойно жить дальше. Если же из подозрительных страниц состоит 90% сайта - то они никогда не будут ранжироваться Гуглом без штрафа. Размер штрафа тем больше, чем ниже "полезность" текста.

Содержимое раздела на вебсайте:

Проверка на уникальность текста. В современном Интернете между web-сайтами идет очень серьезная конкурентная борьба за ТОП. Каждый веб-мастер стремится вывести свой сайт ...

Качественный контент и сервисы. Полезный посетителям и качественный контент на странице - это самый главный фактор из обсуждаемых в данном разделе, с ...

Программы проверки на плагиат. Помимо бесплатные онлайновых сервисов проверки текста на уникальность, существуют еще и десктопные программы, которыми можно проверить на плагиат ...