Как узнать, когда Google впервые проиндексировал определенный URL? Я бы предпочел решение, которое работает даже для URL-адресов конкурентов, которые не принадлежат мне.
Как узнать, когда Google впервые проиндексировал определенный URL? Я бы предпочел решение, которое работает даже для URL-адресов конкурентов, которые не принадлежат мне.
Ответы:
Чтобы узнать возраст URL-адреса, перейдите по этой ссылке, заменив www.example.com
URL-адрес, который вы хотите:
https://www.google.com/search?tbs=cdr%3A1%2Ccd_min%3A1%2F1%2F2000&q=site%3Ahttp%3A%2F%2Fwww.example.com&safe=active&gws_rd=ssl
Например, вот результат Google для мета-сайта Stack Overflow :
В противном случае, машина Wayback также является хорошим решением, но менее точным из моего опыта.
.fr
на .com
.
www
также в это время, он показывает результат для даты, Dec 1, 2014
которая является очень недавней датой, которая не может быть возрастом URL. Я ищу неправильно? или чего-то не хватает?
Zistoloen нашел способ, позволяющий Google отображать дату, когда она впервые проиндексировала содержимое страницы. Я также добавляю это к своему ответу, потому что я думаю, что могу объяснить это более ясно.
Google покажет дату обнаружения контента, который находится на странице в результатах поиска.
Если страница обновляется новым содержанием, Google также обновляет эту дату. Таким образом, это скорее дата «сначала проиндексировал этот контент», а не дата «сначала проиндексировал этот URL».
Кэш Google для страницы показывает, когда страница была проиндексирована в последний раз. Вы можете видеть, что домашняя страница Stack Exchange была проиндексирована в последний раз:
Другим вариантом является использование Wayback-машины Интернет-архива . Это показывает, как выглядела страница в прошлом. Вы можете выяснить, когда страницы были впервые опубликованы. Google и Интернет-архив сканируют и используют страницу вскоре после ее первой публикации.
bing.com
. Извините, если я ошибаюсь?
Не может быть никакого способа узнать, когда Google впервые проиндексировал произвольную веб-страницу - конечно, я не знаю ни одного способа сделать это. Вполне возможно, что Google просто не хранит эту информацию, поскольку нет никакой реальной причины, по которой им это нужно. Кроме того, даже если они хранят эту информацию, у них действительно нет особых причин делать ее доступной для третьих лиц.
(Если это ваша собственная страница, и у вас есть доступ к вашим старым журналам доступа к веб-серверу, это легко - просто выполните поиск в журналах для первого посещения Googlebot на этой странице. Но в противном случае наверняка не будет никакого способа узнать наверняка.)
В любом случае, метод, описанный Зистолоеном и Стивеном Остермиллером в их ответах, обычно не раскрывает дату, когда конкретный URL был впервые проиндексирован Google. Скорее, он показывает дату, когда Google считает, что контент по URL-адресу был опубликован или последний раз обновлялся, и часто основывается на более или менее надежных попытках Google «прослушать» даты из самого контента страницы.
В этом видео Google Мэтт Каттс кратко рассказывает о том, как выбираются эти даты. Для удобства я расшифровал соответствующий фрагмент видео (приблизительно с 2:09 до 2:22) ниже:
«... часто вы будете видеть дату, когда мы ее выводим, или когда мы впервые ее увидели, всякий раз, когда мы сканировали эту страницу, или если мы можем найти ее где-то на странице, и мы можем извлечь эту дату, вы» увидим это в самом начале фрагмента. "
Для таких страниц, как посты в блогах, вики-страницы или вопросы Stack Exchange, когда сайт, на котором запущено программное обеспечение, автоматически сообщает точную дату создания / изменения на самой странице, дата, сообщаемая Google, скорее всего, будет соответствовать ей. Для других типов страниц, однако, анализатор даты Google должен работать усерднее, и он не всегда понимает это правильно (что бы ни означало «правильное» в данном контексте).
В частности, эти даты в основном бесполезны для определения того, как давно страница была проиндексирована , по двум причинам:
Если страница была недавно изменена, и дата изменения отображается на видном месте, Google может выбрать ее как «дату» страницы, даже если изменение было совершенно тривиальным.
Например, эта довольно старая вики-страница (которую archive.org впервые проиндексировал в 2003 году ) в настоящее время помечена датами Google как 10 ноября 2014 года - дата ее последнего редактирования, как показано в нижней части страницы. Изменения, которые произошли в тот день? Просто удалите одну ссылку из нижней части страницы.
С другой стороны, Google, похоже, с радостью принимает очень старые «даты публикации», если они находят их на странице - даже те, которые предшествовали запуску World Wide Web .
Например, эта страница на старом соревновании по программированию датируется Google 15 сентября 1986 года - фактически датой события, описанного на странице. Точно так же эта страница, на которой документирована студенческая забастовка в 1970 году , датирована Google 10 мая 1970 года (дата одного из отсканированных документов на странице), и, что еще более нелепо, эта страница руководства Linux датирована 4 ноября. , 1989 (случайный пример даты, использованной на странице).
Вы можете найти еще много таких примеров, используя пользовательский поиск по диапазону дат, описанный Стивеном и Цистолоеном, но установив верхний предел диапазона, скажем, 6 августа 1991 года .