Ладно. Это будет один из тех случаев, когда я проработаю этот процесс, чтобы он стал более понятным. Это будет несколько долго, но, надеюсь, не больно долго.
Начнем с самого начала?
Начав с того, что мы знаем о том, как Google работает первоначально на основе исследовательской работы Брина и Пейджа в далеком 1997 году, мы знаем несколько вещей, которые, скорее всего, до сих пор в игре.
У Google есть URL в индексе, он выбирает очередь и выбирает страницу. Код для страницы хранится в ее базе данных для различных форм обработки. Одним из процессов будет поиск новых ссылок. Любая ссылка, найденная Google, сначала будет расположена в индексе ссылок, если она существует. В противном случае ссылка будет добавлена в таблицу ссылок и добавлена в очередь выборки.
Любая ссылка в таблице ссылок имеет как минимум эти элементы, URL ссылки, исходный URL и текст ссылки. Вполне вероятно, что есть и другие элементы данных, однако они не способствуют обсуждению. Любая ссылка, добавленная в таблицу ссылок, имеет проверенный исходный URL, но не обязательно целевой URL. Используя в качестве примера реляционные базы данных, исходный и целевой URL-адреса могут быть идентификатором URL-адреса в таблице URL-адресов, а таблица соединения будет соединять исходный URL-адрес таблицы ссылок и элементы целевого URL-адреса с использованием идентификатора обратно в таблицу URL-адресов. Смущенный? Не будь
В любом случае, когда целевая страница не была выбрана, ссылка в таблице ссылок называется висячей ссылкой. Как только страница выбрана, ссылка в таблице ссылок завершена. Если целевой страницы не существует, то ссылка в таблице ссылок является неработающей ссылкой. Просто?
Только полные ссылки могут передавать значение. Алгоритм PageRank требует полной ссылки для вычисления значения. Все висячие и неработающие ссылки прекращают любые вычисления, используя ссылку. Ранее PR был рекурсивным процессом, который вычислял бы значения ссылок, используя таблицу ссылок снова и снова, пока значение, которое можно настроить для любой ссылки, не попадет в числовое значение, настолько малое, что оно фактически не будет иметь значения. Я уверен, что это все еще происходит как домашний процесс. Однако PR сегодня рассчитывается с использованием другого метода, подобного переходам в сети, который измеряет расстояние от одной страницы до другой с относительной важностью. Он основан на модели доверительной сети, которая была разработана для эмуляции оригинальной модели PageRank. Ссылка - это голос доверия от одной организации к другой. Хотя это становится сложнее, чем это, Вы получите картину. Он фактически делает то же самое, что и рекурсивный процесс, используя вычисления в реальном времени, хотя, вероятно, менее точные, но достаточно точные, чтобы быть надежными. Это требует полных ссылок, поскольку значения доверия (с использованием модели сети доверия) не могут быть переданы, если доверие не установлено. Помните, что ссылка - это голос доверия или ссылка в модели сети доверия. PageRank представлен как значение доверия в сети доверия.
Теперь, когда вы понимаете ссылки и насколько они важны, давайте двигаться дальше.
Для поисковой системы не имеет смысла удалять какой-либо URL. Если URL-адрес не существует в таблице URL-адресов, вы ничего не можете знать об URL-адресе и будете в замешательстве. Скорее всего, URL-адреса не удаляются, если, например, это не имеет смысла, если URL-адрес больше не существует. Однако, когда для страницы задано значение NOINDEX, тогда поисковой системе было явно дано указание НЕ индексировать страницу. Поскольку веб-страница в индексе состоит из двух вещей: URL-адреса и исходного кода HTML, на этом этапе NOINDEX эффективно удаляет страницу. Ссылки на страницу NOINDEX как минимум висят.
Теперь, когда вы знаете, как выглядит проиндексированная страница, давайте двигаться дальше.
Есть много способов, которыми поисковая система накажет веб-страницу или сайт. Одним из них является исключение из списка. Это самый серьезный из всех штрафов, на восстановление которого уходит много времени. Эту категорию штрафов вы можете подтвердить, так как на странице их нет и найти невозможно. Кроме того, консоль поиска Googles, в целом, сообщит вам, что страницы исключаются из списка. Из оставшихся штрафов штрафы применяются в фильтрах SERP.
Когда выполняется поисковый запрос, фактически к индексу сразу поступает несколько запросов, которые затем смешиваются в результирующий набор на основе части алгоритма. Оставшийся алгоритм, который мы часто называем единым целым, представляет собой серию относительно простых алгоритмов SERP. Основные алгоритмы, которые будут переупорядочивать набор результатов на основе большего количества показателей в реальном времени, таких как тренды. Из алгоритмов те, которые удаляют записи из набора результатов или серьезно понижают размещение записи в наборе результатов, называются фильтрами. Одним из примененных является фильтр, который обрабатывает DMCA, о чем свидетельствует...we have removed 1 result(s) from this page...
Итак, теперь, когда вы знаете, как применяются штрафы, подключены ли фильтры ссылок, PR и DMCA?
При этом мы знаем, что фильтр был применен, однако это не имеет ничего общего с индексом ссылок, который вычисляет PageRank. Это настолько далеко от процесса ссылки / PR, насколько это возможно. Ссылки и PR находятся в начале процесса индексации, в то время как удаление штрафной страницы DMCA находится в конце процесса запроса. На самом деле это два совершенно разных двигателя. Таким образом, хотя страница может быть удалена из-за жалобы DMCA, она фактически не удаляется из индекса, и, следовательно, ссылки на страницу и со страницы по-прежнему рассчитываются.
Ясно как грязь? Я надеюсь, что я объяснил это хорошо. Пожалуйста, дайте мне знать, если я могу кое-что прояснить для вас.
[Обновить]
Исключение, которое не относится к сценарию ОП.
@StephenOstermiller поднимает хороший вопрос, который не подрывает вышесказанное, однако я хотел бы добавить его для полноты.
Как вы хорошо знаете, оценка сайта или страницы в поиске требует многих факторов. Хотя это не так технически или мистично, как вы можете себе представить, это все же много или факторы для взвешивания. Я забыл о влиянии доверительных оценок в основном потому, что это не относится к делу ОП. Поэтому я добавляю это сюда.
Ясно, что есть сайты, которые бесполезны, такие как спам-сайты. В эту классификацию сайтов входят сайты, которые обычно злоупотребляют авторским правом. Много лет назад это было огромной проблемой, когда скребки контента создавали сайты на основе вашей тяжелой работы. Долгое время ничего не было сделано. Сайты с оригинальным контентом будут уступать скребковым сайтам довольно последовательно. Я должен знать. У меня было два PR 8 сайта, которые потеряли почти весь свой трафик из-за скребковых сайтов без каких-либо ограничений.
Однако все изменилось. И прошло всего четыре года с тех пор, как начались значительные изменения.
Для этой специальной классификации сайтов рейтинг доверия сайтов может быть значительно снижен. Это хорошо известно. Требуются годы, чтобы восстановить показатели доверия, и для некоторых сайтов это может никогда не произойти. Почему, к примеру, вы думаете, что монетизаторы доменов так хотят полностью уничтожить сайт, где сотни тысяч ожидают такого же злоупотребления? Это потому, что реальность такова, что домен может разрушить его ценность за выкупом.
Есть много факторов, которые влияют на установление доверия. Я не буду вдаваться в это здесь. Тем не менее, знайте, что доверие является основным компонентом повышения рейтинга для любого сайта.
Тем не менее, для любого сайта, который является серьезным нарушителем DMCA с довольно обширным послужным списком, можно было бы увидеть серьезный удар по его доверительной оценке. Это не тот сценарий, который описывает OP. Тем не менее, это сценарий, который я предполагаю здесь.
Ссылки и создание PageRank имеют более одного компонента. Одним из них является PageRank (авторитет) самой страницы. Для очень авторитетных страниц есть верхний предел полномочий. Страница PR 8 не будет иметь значение 8 среди ссылок на этой странице. Это часть оригинального алгоритма PageRank, предназначенного для создания более естественной кривой в PR. В противном случае было бы почти невозможно, чтобы новая страница конкурировала со страницей с высоким авторитетом даже после длительного периода времени. Значение самой ссылки оценивается с использованием нескольких факторов, включая семантическое значение текста ссылки, URL-адрес ссылки, местоположение ссылки (известность), семантическое значение блока контента, который содержит ссылку, если она применяется, и т. Д. Все ссылки оцениваются от 0 до 0,9. Расчет авторитета и оценки ссылки - это значение, передаваемое любой ссылкой.
Ну и хорошо. Так как это влияет на сайт, который является значительным нарушителем DMCA?
Значение любой входящей ссылки не обязательно будет зависеть от показателя доверия целевого сайта, поскольку значение ссылок исходит от исходного сайта. Однако любая исходящая ссылка может быть. Авторитет любого сайта, который является значительным нарушителем DMCA, будет зависеть от уровня доверия. В конце концов, власть исходит от доверия. Таким образом, значение входящей ссылки не будет передаваться через исходящие ссылки без снижения в зависимости от показателя доверия.
Это несколько меняет ответ.
Хотя это не относится к сценарию OP, существует сценарий, когда значение входящей ссылки не полностью передается через сайт с нарушением DMCA. Тем не менее, это сложный случай, и поэтому порог, прежде чем это произойдет, является значительным.