Что такое дубли страниц, почему это плохо и как с этим бороться

Здравствуйте, уважаемые читатели!

Поговорим сегодня про дубли страниц, которые могут возникать на вашем сайте по разным причинам, попадать в поисковую выдачу и препятствовать успешному продвижению. Разумеется, рассмотрим способы борьбы с этим злом.

b2-2

Что такое дубли страниц.

Возьмите любую статью на вашем сайте. Она единственная и уникальная, точно такого же текста на сайте нет. Но если эта статья будет доступна в поиске по нескольким адресам, то поисковые системы это видят как несколько разных страниц с одинаковым контентом.

b4-4

Для вас это может быть не существенно, как и что видят поисковики. Но они считают, что индексация и обработка дублей это бесполезная трата и так весьма ограниченных ресурсов (особенно актуально для Яндекса). И правильно считают, потому что дубли это мусор, которого в интернете и так навалом.

Сайты, на которых очень много дублированного контента, запросто могут попасть под пессимизацию, так как дубли это признак разгильдяйства со стороны владельца сайта.

Как выявить дубли.

Первое. Все мы регулярно заходим в вебмастер Яндекса. Обратите при очередном посещении этого сервиса на количество статей вашего сайта, находящихся в поиске. Если оно примерно совпадает с реальным числом, то беспокоится о наличии дублей не стоит. Но если вдруг проиндексировано сильно (в разы) больше, чем реально имеется, то это первый признак дублей. 

Не удержался, проверил свой блог. В поиске 185 страниц, в реале где-то столько же. Отлегло.

b3-3

Второе. Одной из причин появления дублей может быть ситуация, когда статья на вашем сайте доступна в поиске со слешем в конце адреса и без него. Для поисковых систем адрес со слешем и без это два разных адреса, но статья одна, вот вам и дубль.

Для примера я захожу к себе на блог и открываю последнюю опубликованную статью. Адрес у нее такой http://inetandwork.ru/seo-i-prodvizhenie/prodvizhenie-sayta-ssyilkami.html/. Как видите, в конце стоит слеш. Теперь я убираю его в адресной строке браузера и жму Enter. Открывается та же статья и опять со слешем в конце. Это значит, что дубля нет. Если бы открылась эта статья с адресом без слеша, то был бы дубль.

Это один из самых простых способов проверки. Но им лучше пользоваться для статей, которые проиндексированы давно. Если ваш сайт потихоньку плодит дубли, то это может происходить не сразу.

Третье. Дубли так же появляются, если страница доступна с адресом с www перед доменом и без www. Можете просто открыть главную страницу своего сайта. У меня главная имеет такой адрес http://inetandwork.ru, он без www перед названием. У вас может быть наоборот, если ваш сайт возрастной. Теперь я вписываю эти www, получаю вот такой адрес http://www.inetandwork.ru и жму Enter. Главная снова открывается с адресом без www. Дублей нет.

Четвертое. Этот способ позволяет не просто выявить сам факт наличия дублей, но найти их, узнав сколько их для статьи. Для этого идем в расширенный поиск Яндекса. Чтобы его найти, заходим в раздел «Все сервисы Яндекса» и спускаемся в самый низ. Там будет подраздел «Специальный поиск», в нем кликаем по «расширенный». Попадаем сюда. 

b1-1

В строку «Я ищу» вставляем кусок текста со своей статьи, взятый в кавычки. Текст должен быть длиной в несколько предложений и взят из середины или с конца статьи. Если брать в начале, то сервис может найти анонсы, если вы их где-нибудь размещали.

В строку «На сайте» ставим адрес своего сайта и запускаем поиск. Яндекс на вашем сайте ищет статьи, в которых присутствует данный отрывок текста. В идеале он должен найти только одну статью. Если он выдал несколько, то это дубли.

Как бороться с дублями.

Первое. Если у вас появляются дубли со слешем и без в конце адреса, а так же с www и без, то самый простой способ написать в службу поддержки хостинга, на котором висит ваш сайт. Им это исправить не составит проблем.

Второе. Заходим в панель вебмастера Яндекса. В новом интерфейсе переходим «индексирование» — «настройка индексирования» — «переезд сайта» и в этом разделе настраиваем главное зеркало сайта с www или без, как нам нужно. После этого идем в файловый менеджер на хостинге, в корневом каталоге открываем папку public html, находим в ней файл .htaccess и прописываем в него 301-й редирект на основное зеркало.

Третье. Уж сколько раз твердили миру, что архивы рубрик в сайтбаре до добра не доводят. Мало того, что они бесполезны, так они еще и плодят ненавистные дубли. Если вам архивы дороги, но и дубли не нужны, то надо прописать запрет на индексацию в файле robots.txt. В него вносим такую строчку Disallow: /arch/. После этого дубли от архивов появляться перестанут.

Заключение. 

На этом заканчиваю. На самом деле гораздо проще не допустить появления дублей страниц, чем потом с ними бороться. Для этого при рождении сайта надо сразу правильно сделать файл robots.txt, а в вебмастере прописать главное зеркало. И не забывайте про архивы, этот рассадник дублей.

Хочу обратить внимание, что описанные выше причины появления дублей и способы их устранения далеко не исчерпывающие. Но они самые распространенные. Наверняка это 90% всех случаев. остальные, экзотические, описывать тут не буду. Но желающие могут развить обсуждение в комментариях.

Желаю всем всего самого наилучшего.

С уважением, Владислав Заболотный.

Поделитесь статьей в соцсетях.

Комментарии (4) на “Что такое дубли страниц, почему это плохо и как с этим бороться”

  • Влад, спасибо за эту полезнейшую статью! Ты, как всегда, излагаешь емко и четко. Но у меня есть еще вот такой «чайниковый» вопрос… А если одна статья будет записана в несколько разных рубрик, и я это не сразу замечу, то это тоже будут дубли?
    Когда я это обнаружила, то, конечно, навела порядок. Но какое-то время они у меня двоились.

    • Владислав Заболотный:

      Если одна статья размещена в нескольких рубриках, то по факту мы имеем один текст с разными адресами. Боты не будут знать, как это ранжировать, их электронные мозги еще это не умеют. Так что нужно придерживаться правила одна статья — один адрес.

  • Антонов:

    А я взял себе Serpstat, прогнал через аудит сайта свой сайт (я еще учусь), нашел массу критических ошибок, теперь бегаю по блогам ищу как исправить 😀 Спасибо за статью, реально помогла! 😉

Оставить комментарий

Хотите зарабатывать?