Почему Инструменты Google для веб-мастеров сканируют недействительные URL-адреса и показывают 500 ошибок?

11

Инструменты Google для веб-мастеров сообщают о 12k + 500 ошибок. EEEK!

Ни один из URL-адресов не является действительным - все они содержат www.youtube.com. Во-первых, почему Google сканирует эти URL-адреса, если они не существуют? Я предоставил карту сайта, и они, конечно, не включены в карту сайта.

У меня нет robots.txt, блокирующего что-либо. Я проверил наличие недействительных перенаправлений - нет, и проверил наличие незакрытых тегов или чего-то, что случайно добавило бы www.youtube.com в URL - нет.

В каждом «связанном с» ссылочном URL-адресе также указан неверный URL-адрес, содержащий www.youtube.com. Инструменты Google сообщают об отсутствии вредоносного ПО, и я не могу проверить журналы сервера, потому что хост не предоставит мне доступ.

Действительно застрял! Любые идеи приветствуются!

google-search-console http-code-500

— Амос Кейн
источник

Можете ли вы опубликовать несколько примеров, пожалуйста?

— ionFish

Является ли ваш сайт Wordpress или другой блог-платформой?

— Ubique

3

Если вы видите ошибки HTTP 500 (ошибки сервера) для недействительных URL-адресов, возможно, у вас есть проблема в настройке - недопустимые URL-адреса должны возвращать 404 или 410.

— Джон Мюллер

8

Существует (как минимум) две распространенные причины, по которым странные и искаженные URL-адреса могут отображаться как ошибки сканирования в Инструментах для веб-мастеров.

Первая возможность состоит в том, что кто-то скопировал ваши страницы (или некоторые другие страницы, которые ссылаются на ваши) и исказил ссылки в процессе. Это происходит чаще, чем вы думаете; см., например, шестой вопрос в этой записи блога Google для веб-мастеров .

Другая возможность состоит в том, что сам робот Googlebot пытается следовать тому, что он считает ссылками JavaScript, и создает беспорядок . Обычно эти два случая можно отличить друг от друга, посетив ссылающуюся страницу (которая должна существовать и быть доступной, если Google удалось сканировать ее с самого начала) и найти имя целевой страницы в ее источнике.

В любом случае, вы можете сделать две вещи: либо просто игнорировать ссылки, либо придумать правила переписывания, чтобы попытаться сопоставить неработающие URL-адреса с рабочими. Если вы видите очевидную закономерность в URL-адресах и знакомы с регулярными выражениями, я бы порекомендовал второй подход - он очистит ваш список ошибок сканирования и, возможно, даже даст вам небольшой и довольно глупый, но реальный, PageRank импульс ,

Третий вариант, если вы обнаружите, что кто-то копирует ваш контент без разрешения, это попытаться исключить его из списка . Вы даже можете отправить жалобу (и / или официальный запрос на удаление) их хостинг-провайдеру, если вы считаете это оправданным. Конечно, при условии , что они являются , по- видимому ссылки на ваш сайт, вы можете не обязательно найти , что стоит усилий.

— Илмари Каронен
источник

0

Google индексирует сайт не сразу сразу на всех страницах.

Google индексирует страницы в первую очередь высшего уровня. Затем через несколько дней Google пытается глубже проиндексировать - страницы второго уровня (страницы, на которых Google нашел ссылки на страницах первого уровня) и так далее. Таким образом Google пытается проиндексировать каждую страницу на сайте. Таким образом, Google создает иерархическое дерево ссылок, и Google знает, какие страницы связаны с каждой страницей.

Затем через некоторое время Google пришел на каждую проиндексированную страницу и проверил, изменился ли контент на странице. Интервал индексации для каждой страницы и каждого сайта зависит от многих факторов.

Поэтому, если вы удалите какую-либо страницу и обновили все ссылки на эту страницу на всех других страницах - Google не узнает об этом сразу и пытается проиндексировать удаленную страницу, потому что она планирует проиндексировать эту страницу в своем расписании.

— webvitaly
источник