Как найти и удалить дубли страниц

Webpage Profy
25-10-2021
1164
SEO
Как найти и удалить дубли страниц

Одна из самых частых ошибок серьезно влияющих на продвижение, - это наличие дублей на сайте. В отношении SEO слово дубль вообще не применимо, а если говорить о страницах своего ресурса, то ни при каком анализе подобных копий выявлено быть не должно. Зачастую, при визуальном просмотре в разделах нет дублирующих друг друга урлов и для владельца бизнеса информация об их наличии является шокирующей. Ошибка может появиться по ряду причин, начиная от особенностей движка и заканчивая настройками SEO-плагина. Как найти и правильно исключить из выдачи дублирующие страницы мы сегодня подробно разберем.

Что такое дубли страниц и почему это плохо? 

Дублем страницы считаются два и более разных url с одинаковым содержимым. Чаще всего зеркальные страницы появляются автоматически. В некоторых системах управление прописано правило формирования разделов и если пользователь задает свой вариант, отличающийся от заложенного хотя бы на символ, то CMS генерирует копию, согласно заложенным настройкам. Аналогичным образом могут вести себя различные SEO-утилиты, приводящие структуру в соответствие с заложенным в них шаблоном. Даже если новый вариант является правильным, старые страницы никуда не деваются и появляются серьезные ошибки.

Также копии могут появиться после действий вебмастера или контент-менеджера. Очень часто интернет-магазины имеют схожие товарные позиции, отличающиеся только артикулом и одной из характеристик. Идентичных товаров может быть несколько десятков (а то и сотен) и писать уникальные описания для каждого из них невозможно физически. Чтобы карточка не оставалась пустой, контент-менеджер копирует в неё описания, создавая тем самым очень похожую страницу, которую поисковые системы скорее всего примут за дубль (или недостаточно качественный url) и выкинут из индекса.

В чем опасность копий страниц? Наличие дублей негативно сказывается на поисковом продвижении сайта. В первую очередь, ухудшается ранжирование страниц, поисковые системы борются с некачественным контентом и убирают из выдачи схожие url. Сказываются дубли и на краулинговом бюджете, роботу приходится обходить все существующие урлы, тратя на них квоту, из-за этого другие разделы ресурса могут быть пропущены.

 

Что происходит когда поисковик находит дубликаты?

 

  • Пессимизация всех копий. Таким образом даже оригинальный текст попадает в немилость и запросы этой страницы теряют позиции;

  • Потеря «веса» урла. Каждая веб-страница имеет свой «вес», который распределяется по всему ресурсу через перелинковку. Чем лучше поведенческие факторы url, тем выше «вес», однако дублированный контент резко снижает это значение;

  • Общий процентный показатель уникальности сайта падает;

  • Уменьшается количество страниц, которые робот успевает пройти. Из-за дубликатов, время переобхода сайта увеличивается. Соответственно, на целевые страницы и поисковика остается меньше времени (квоты);

  • Фильтр и санкции поисковых систем. Разделы с дублирующимся контентом будут пессимированы в поисковой выдаче. А если веб-ресурс весь состоит из дубликатов и в добавок контент изначально был неуникальный, то такой сайт попадет под фильтр аффилированния.

 

Виды дублей страниц

Для поисковой системы нет принципиального разделения на типы дубликатов на веб-сайте, но оптимизаторы выделяют порядка десяти видов дублей. Классификация дублей сайта помогает правильно найти причину их возникновения и провести необходимые работы по исправлению.

  • Дубликаты главного зеркала с «www»и без. 
  • Дубликаты сайта с https/http
  • Дубликаты с техническим классификатором html/php/htm в конце
  • Дубликаты имеющие/не имеющие слэш в конце или с множественными слешами  
  • Дубликаты с разным реестром ЧПУ
  • Дубликаты с произвольным добавление символов в конце url
  • Дубликаты с наличием звездочки после слеша в конце урл
  • Дубликаты с разным уровнем вложенности 
  • Дубликаты с разным разделителем (подчёркивание-тире) в ЧПУ

Как найти дублированные страницы веб-сайта?

 

  1. Основной и самый действенный способ, - это использование специализированного софта. Наверное все оптимизаторы согласятся, что наилучшим решением будет Screaming Frog SEO Spider. Платная лицензия с лихвой компенсируется огромными возможностями программы.  Для поиска дублей начинаем сканирование всего сайта по-основному url и смотрим результат в папке дубликатов (duplicate). Не будет лишним проанализировать все страницы в разделе протокол (protocol), отдающие код 200 и имеющие http-протокол. При наличии подобных урл, их также нужно удалить. 

    Из других аналогов можно рассмотреть варианты с Xenu, или Spider от NetPeak. 

  2. Второй метод, который можно назвать «дедовским» заключается в использование команд «inurl» и «site» в поисковой системе Google. Суть метода в вводе команды в поисковой строке и ручном анализе проиндексированных страниц. Этим способом можно найти и устранить дубликаты, уже известные поисковику, однако причину возникновения и непроиндексированные копии он не укажет.

  3. Третьим идет самый простой и быстрый метод – использованием онлайн-сервисов проверки. Различные сайты предлагают своим посетителям найти дубли через онлайн-чекер. Все достаточно просто – вы вводите адрес веб-сайта и ждет результата проверки. Как правило, полноценный отчет доступен при активации платной подписки, но получить базовую информацию можно совершенно бесплатно.

     Помните, онлайн-сервисы могут не найти всех дублей сайта. Используйте этот метод вместе с другими.
  4. Последний, но не менее актуальный способ это использование вебмастера Яндекс и поисковой консоли Google. Несмотря на то, что инструменты ищут дубликаты по идентичным алгоритмам, результаты зачастую отличаются, поэтому мы советуем проверять ресурс в обеих поисковых системах. 

 

В кабинете Яндекс-Вебмастер ищем раздел «Индексирование»,  и там смотрим все страницы в поиске. В кабинете Search console выбираем блок «Покрытие» и там изучаем подраздел со списком url исключенных из индекса.

Дубль найден, как его удалить? 

Ранее мы рассматривали виды дубликатов для того, что понять как правильно их удалять, ведь если нет дублирующейся страницы, значит нет и дубликата. К сожалению, зачастую удаление страниц не решает проблему (генерация происходит постоянно) и приходится искать другие способы решения.

Чаще всего дубликатами являются неосновные зеркала или страницы с протоколом http. Лекарством в таком случая  является настройка 301 редиректа через файл htaccess в панели хостинга. 

 

В последние время поисковые системы особо тщательно стали следить за дублями страниц пагинации, выдачи результатов поиска, рекламных utm меток в адресе. Для решения этой проблемы не нужно удалять все эти виды веб-страниц, достаточно правильно настроить канониклы и проверить ссылки в вебмастере.

Простой вариант, подходящий для небольшого количество дублей – запрет индексации страниц/разделов в файле робота. Для корректировки robots, ищем необходимый файл в корне сайта и открываем его содержимое обычным блокнотом. Через директиву disallow закрываем проблемный url и ждем пару апдейтов. 

 

Другие типы дублей можно удалить в административной панели сайта. Если в CMS установлен отдельный плагин для SEO-оптимизации, то идем сразу туда и ищем правила формирования url. Если плагинов для продвижения нет, то изучаем общие настройки движка. Подобные задачи не отличаются сложностью и вы всегда можете воспользоваться услугами программистов в случае возникновения сложностей.

Поделиться
Больше не нужно искать и обзванивать диджитал-агентства!
Создайте тендер и получите предложения от лучших веб-студий Украины.
В каталоге 1700+ диджитал-агентств, готовых помочь в реализации ваших задач. Выберайте и экономьте до 30% своего времени и бюджета! Это бесплатно и займет менее 3-х минут.
Создать тендер
Подписка на рассылку
Получайте одно письмо в неделю с самыми важными новостями.
Bug