Использование rel = канонического с синдикацией

Я работаю на сайте, который позволяет синдицировать контент (через API и дампы данных). Мы обнаруживаем, что количество сайтов, которые публикуют наш контент, показывается выше в результатах поиска Google, хотя мы являемся первоначальным издателем. Это расстраивает.

Мы рассматриваем вопрос о включении rel=canonical наших требований в атрибуцию. Google утверждает, что его можно использовать в разных доменах и в синдикационных сценариях.

Сделали ли вы это, и учитывает ли Google канонический URL в поисковом рейтинге? Поможет ли это нам уменьшить количество спама в выдаче?

— Мэтт Шерман
источник

То, что вы описываете, не является спамом. Люди делают то, что вы просите их - синдицирование вашего контента. Спам - это нежелательные рекламные объявления по электронной почте и веб-страницы, созданные с единственной целью - бомбардировать людей рекламой, а не создавать что-либо ценное. Если это типы сайтов, на которых синдицируется ваш контент, то вам нужно переосмыслить свою модель синдикации, или это плохо отразится на вашем сайте (только через ассоциацию). Но простое наличие лучшего поискового рейтинга, чем у вас, не делает сайт спамом.

— Lèse Majesté

@ Правда? эти сайты, по-видимому, прямо противоречат правилу «мало или совсем нет оригинального контента», установленному самим Google google.com/support/webmasters/bin/answer.py?answer=66361

— Джефф Этвуд,

@Jeff: На какие сайты вы конкретно ссылаетесь? Я говорю о самом использовании веб-синдикации, что делают многие легальные сайты. Спам-сайт не должен использовать синдицированный контент, и простое использование синдицированного контента не делает сайт спам-сайтом (даже если они достигают лучшего рейтинга, чем вы). Например, многие крупные новостные издания используют синдицированный контент от AP для дополнения своего собственного контента. Это дублированный контент? Да. Но это спам? Нет. И я не думаю, что AP также продвигает спам.

— Lèse Majesté

@ Lèse ключевые слова здесь дополняют их собственный контент . Если ВСЕ содержимое копируется, то что именно создается или представляет интерес?

— Джефф Этвуд

@Jeff: Из вопроса Мэтта не ясно, что это сайты, на которые он ссылается. Он просто заявил, что есть сайты, которые публикуют его контент (что является целью предоставления API-интерфейса для синдикации), рейтинг которого выше, чем у оригинального контента. Для меня это не означает, что это (обязательно) спам-сайты. Но, возможно, моя интерпретация вопроса неверна.

— Lèse Majesté

Ответы:

Джефф на 100% прав во всем, что он сказал.

Другая проблема, связанная с запросом использования сайта синдикации, <link rel="canonical" href="http://example.com/foo">заключается в том, что он сообщает Google, что страница синдикации не должна получать рейтинг страницы, а http://example.com/fooдолжна получать все.

Это создает две основные проблемы.

Страница синдикации вообще не будет отображаться в поиске Google, потому что она не имеет рейтинга страницы. Сайт синдикации не был бы ни малейшим доволен этим. Маловероятно, что они захотят внести изменения, если смогут.
Это может не повлиять на ваш сайт так, как вам нравится, потому что вы фактически не получаете ссылки с сайта синдикации. Мне было бы интересно, как Google справится с этим. Это правда, что они допускают межсайтовый rel = "canonical", но я полагаю, что цель этого состоит в том, чтобы перенести сайты и иметь несколько сайтов под одним хостом с одним и тем же контентом, чтобы иметь одну дефакто-страницу против группы похожих / одинаковых страниц.

— Бен Хоффман
источник

Это хорошие моменты. Я думаю, что синдицирование является одной из областей, где есть законная причина для дублирования контента. В этом случае лучше оставить дублирующийся контент в покое и признать, что это и есть синдикация. Конечно, в идеале Google должен отдавать предпочтение исходной странице, а не страницам партнеров по синдикации. Возможно, нужно создать новый тег, который находится между тегом rel="canonical"HTML5 <cite>. Таким образом, поисковые системы могут узнать, какая страница является оригинальной для законного дублированного контента.

— Lèse Majesté

подтвердил, см. мой ответ от Мэтта Каттса ниже.

— Джефф Этвуд

Мое исследование показало, что требование ссылки назад - и что ссылка НЕ должна быть nofollowed - было безусловно самым важным критерием.

Если «синдицирующий» сайт не приписывает контент ссылками на оригинал, которые действительны для поисковых систем, поисковым системам будет намного сложнее отследить, где контент был создан, и он должен применять сложный «поиск дублированного текстового контента по всему Весь интернет "Эвристика.

Я не уверен больше, чем это необходимо.

Связанное видео Мэтта Каттса

http://www.youtube.com/watch?v=x8XdFb6LGtM

Мэтт сказал, что было бы неплохо использовать rel = "canonical", чтобы указывать на страницу, на которой возникла статья, - так же, как он часто предлагал, чтобы синдицированные статьи содержали обычные ссылки (т. <a>Е. Тег nchor), указывающие на оригинальная статья.

Имейте в виду, что канонический не просто удар rel="canonical"по <a>тегу; это больше похоже на это:

<html>
    <head>
         <link rel="canonical" href="http://example.com/foo">
    </head>
...

Так что это требует другой работы, вы должны изменить заголовок каждой страницы. Я не уверен, что многие из этих «синдикаторов» будут иметь такой уровень контроля по сравнению с простой ссылкой ( без nofollow!) На источник.

— Джефф Этвуд
источник

Я также рекомендовал бы прочитать запись в блоге Джеффа на эту тему «Обязательная защита авторства» - blog.stackoverflow.com/2010/08/defending-attribution-required

— Скотт Митчелл

@scott отметить , что мы не не первоначально требуют последующей ссылки, но мы изменили это , потому что паук Google, не хватает материала , который был в наших данных сваливать некоторые из скребков использовать ... и недостающее звено, которое nofollowed никак не поможет вернуть его в индексе Google!

— Джефф Этвуд

@Jeff: Слегка касаясь одной вещи, меня беспокоило то, что ссылки в ответе Stackoverflow имеют значение rel = "nofollow". Разве пользователи с определенной репутацией не должны получать преимущество от rel = "nofollow" на ссылки, которые они публикуют?

— Скотт Митчелл

@scott поле веб-сайта в вашем профиле, на любом веб-сайте Stack Exchange в качестве любезности удалено nofollow с повторением 2k.

— Джефф Этвуд,

@ Джефф, я говорю о ссылках в ответе Stackoverflow. Например, если я делаю просмотр / источник на этой самой странице, я вижу ссылки в вашем ответе (например, на YouTube): rel = "nofollow". Я предполагаю, что это должно отговорить спамеров, но в то же время кажется, что вы упускаете возможность повысить релевантность результатов поиска для других, не говоря уже о том, чтобы не «отдать должное» (в глазах Google) человеку, который написал статья / запись в блоге / и т.д. это связано с.

— Скотт Митчелл

Добавление другого ответа, потому что я получил окончательный ответ от Мэтта Каттса на это:

rel=canonicalработает в разных доменах, но в основном действует как 301 [перенаправление] , поэтому страницы целевого сайта будут идти прямо на ваш сайт в Google. Любой сайт, использующий ваш контент, будет в основном удален из поисковых систем.

Как Мэтт говорит , что лучший способ думать rel=canonicalэто как 301 для постоянной переадресации .

Таким образом, требовать междоменного использования rel=canonicalв качестве набора условий для атрибуции все равно что просить их перенаправить вас на 301! Уч. :П

Зная это, ясно, что rel=canonicalоно предназначено только для использования на сайтах, которые вы лично контролируете - например, когда вы перемещаете домены, и вам нужен контент одного домена для замены другого.

— Джефф Этвуд
источник