Что такое шингл и как проверяется текст на уникальность методом шинглов?

Рано или поздно любому копирайтеру приходится столкнуться со словами «проверка текста на уникальность» и «шингл». А что такое вообще шингл? И как проверка текста соизмерима с этим словом?

Шингл: что за фрукт?

Шингл – это фрагмент текста длиной в несколько слов, с которым работают различные программы проверки уникальности. С помощью шинглов можно практически безошибочно проверить текст на уникальность, вплоть до синонимизированного текста. Наиболее распространенной длиной шингла, используемая вышеупомянутыми программами находится в диапазоне от 3 до 6 слов. Такие программы работают примерно следующим образом: они разбивает текст на отдельные элементы – фиксированные участки слов (заданные шинглом – 3, 4 или 5), и затем находят эти фрагменты в других текстах Интернета.

Каждый понимает, зачем нужна столь детальная проверка уникальности. Неуникальные тексты не чтятся поисковыми системами, а две статьи отличающиеся друг от друга 3 предложениями – отнюдь не уникальны. Для того чтобы выявить такие статьи-копипаст как раз и используется метод шинглов.

 

 

Как действует алгоритм шинглов?

Точный алгоритм шинглов держится в строгом секрете, однако, можно выделить его примерные составляющие:

  • Канонизация текста
  • Разбиение текста на шинглы
  • Сравнивание шинглов одного текста с шинглами другого

Канонизация текста – это приведение оригинального текста в форму, очищенную от различных стоп-слов – слов, не имеющей смысловой нагрузки и знаков препинания. Часто канонизация включает удаление некоторых имен прилагательных, несущих эмоциональный окрас, а также приведение имен существительных в именительный падеж и единственное число.

На втором этапе текст делиться на шинглы заданного размера. Чем короче шингл, тем меньше будет уникальность текста и точнее результат проверки. А третий этап посвящен сравниванию шинглов одного текста с шинглами другого.

Итак, уникальность текста напрямую зависит от длины шингла. Если задать в настройках шингл 1, то вряд ли в Интернете вы найдете текст, в котором не встречается хоть одно упомянутое слово вашей статьи. Уникальность в данном случае будет равняться нулю. А если задать шингл 9, то уникальность вашей статьи резко возрастет, так как в интернете практически нереально найти два одинаковых текста, содержащих идентичные  фрагменты из 9 слов, правда, если это не откровенный копипаст.

Помните, для того, чтобы ваш текст высоко ранжировался в поисковых системах, первое – что вас должно заботить – это его техническая уникальность. Кроме того, существуют и другие типы контента, которые нравятся поисковым системам, подробнее читайте об этом, перейдя по ссылке. 

Будьте в курсе последних новостей интернет-маркетинга

  • Вы будете в курсе современных технологий
  • Узнаете новые методы продвижения
  • Ознакомитесь с мнениями экспертов