Как найти и удалить дубли страниц на сайте

3001
2

02.07.2019

Как Найти и Удалить Дубли Страниц на Сайте - Verstkovo

Содержание

Вступление

Уникальность контента — один из самых важных факторов успешной оптимизации сайта. Дубликаты страниц представляют опасность для продвижения: они могут серьезно снизить позиции ресурса в поисковой выдаче и крайне отрицательно воспринимаются роботами-поисковиками вплоть до наложения санкций.

Поэтому дубли нужно своевременно выявлять и удалять. Как научиться этому — в нашей инструкции для новичков.

Почему дубли опасны?

Дубли (копии) страниц — это блоки контента с одинаковым содержанием в пределах одного доменного имени. Когда на сайте есть две или больше одинаковых страниц, поисковики не могут разобраться, какую из них нужно выдавать по соответствующему запросу. Такая дилемма несет множество негативных последствий:

Проблемы с индексацией сайта — если на каждую страницу будет по одному дубликату, то веб-ресурс увеличится в два раза. А если несколько дублей? Поисковики просто могут не проиндексировать все существующие страницы.
Снижение позиций в поисковой выдаче — в органической выдаче может быть не основная страница, а ее дубликат. Или что еще хуже — ни одна из них.
Снижение позиций ключевых слов, т.к. релевантная привязка будет постоянно меняться с одной страницы на другую.

Виды дублей и почему они возникают

Копии страниц могут быть:

полные — когда по двум или более адресам размещена одна и та же страница;
неполные — некоторая часть содержимого страницы частично присутствует на других страницах, но они являются только частичными копиями.

Причины возникновения полных копий:

Это могут быть идентичные страницы с www и без www, а также с html или https — появляются, если редирект настроен неправильно.
Некорректная настройка страницы 404.
Копии, созданные реферальной ссылкой, когда автоматическое перенаправление на URL без параметра «?ref=…» не происходит.
Проблемы с иерархией URL.
Случайное копирование контента разработчиком или контент-менеджером.
Изменение структуры ресурса, когда страница получает новый адрес, а старый забывают удалить.

Неполные дубликаты найти не так просто, они не приводят к резкому снижению позиций в выдаче, а “отравляют” сайт постепенно. Их основные причины:

Копии, созданные страницами пагинации, фильтров или сортировок. Например: когда пользователь выбирает определенный фильтр товаров, URL немного видоизменяется и Google будет индексировать его как отдельную страницу. Но по сути, часть контента на новой странице остается неизменной.
Отзывы, комментарии, обзоры — дубли появляются по аналогичному принципу: в адресе добавляется параметр, а контент остается неизменным.
Страницы для печати или PDF загрузки, которые полностью копируют основной контент.
AJAX слепки страниц, найти которые можно, если в URL ввести вместо «!#» — «?_escaped_fragment_=».

Также появление частичных дублей может быть сознательным шагом. Например, если владелец ресурса хочет привлечь внимание к контенту и повторяет его в разных блоках.

Способы поиска дубликатов

Анализ выдачи с использованием оператора “site:” — позволяет проверить все копии страниц вручную.
Программы-парсеры, например:
Screaming Frog SEO Spider — хорошо сканирует страницы и файлы на сайте, показывает битые ссылки и копии страниц.
Netpeak Spider — инструмент для комплексной проверки сайта, который позволяет находить битые ссылки и дубликаты и проверять ресурс по SEO-параметрам.
Xenu — компьютерная программа для проверки сайтов.
Консоль Google Search — здесь можно просмотреть перечень страниц с копиями метатегов, что может быть признаком дублей.
Поиск вручную — такой способ подходит более опытным разработчикам. Они могут с помощью разных комбинаций URL-адресов выявить большинство копий.

Как удалить дубликаты страниц ?

После выявления причин возникновения копий, вы можете избавиться от них одним из нижеперечисленных способов:

Физически удалить дубликаты вручную — оптимальное решение для небольших ресурсов, которые реально полностью пересмотреть самостоятельно.
Запретить индексацию в файле robots.txt. — это поможет скрыть копии, которые еще не проиндексированы. Команда Disallow позволяет запретить поисковым роботам заходить на определенные страницы. Это самый подходящий способ борьбы с дублями служебных страниц, которые копируют содержание основных.
Скрыть страницы от индексирования при помощи мета тега “noindex”. Он прописывается в HTML-коде той страницы, которую не должны видеть роботы-поисковики. Но есть нюанс: если страница уже была ранее проиндексирована, то она продолжить появляться в выдаче.
410 редирект — сообщает поисковику, что такая страница или ее альтернативные варианты отсутствуют на сайте. В файле конфигурирования сервера htaccess необходимо прописать: “redirect 410/tag/page.html”.
Перенаправить ботов на каноническую страницу для индексации. Это не удалит дубль, но покажет роботу исходную страницу, которую нужно индексировать. Атрибут rel=”canonical” необходимо вставить в head HTML-кода копии:
```
<link rel="canonical" href="https://example.com/wordpress/seo-plugin/" />
```
“Склеить” страницы при помощи 301 редиректа. Дубли при этом также не исчезнут, но это оптимальное решение для нарушений в иерархии URL. Пример, как может выглядеть редирект: “redirect 301/page.html https://example.com/wordpress/seo-plugin/”.
Если на сайте есть версии страниц для печати или скачивания, лучше всего подойдет тег nofollow. Он позволит скрыть такие блоки от поисковиков.

Подведем итог

Полные и частичные дубликаты могут сильно снизить позиции сайта в органической выдаче. Полные дубли найти проще. Частичные копии влияют на снижение позиций более медленно и незаметно.

Найти все виды копий можно вручную, с помощью программ-парсеров или консоли Goggle.

Удаление копий можно произвести с помощью запрета индексаций, настройки редиректов или удаления дублей вручную.

Очень часто проблемы появления дубликатов заключаются в самой системе управления сайтом. Поэтому поиск и устранение ошибок лучше доверить опытным специалистам.

В компании Verskovo вы можете заказать полный технический аудит вашего сайта и устранение ошибок.