Как получить список всех проиндексированных ссылок?


8

Я ищу способ взять все ссылки, которые я проиндексировал Google, и экспортировать их в файл CSV. Недавно у меня было гораздо больше страниц, проиндексированных Google, чем на самом деле, и я хочу выяснить, откуда все эти страницы, без просмотра каждой страницы результатов поиска.


Откуда вы взяли количество проиндексированных страниц?
MrWhite

Google для веб-мастеров и поисковый сайт: domain.com
Lee

2
Единственное, что я хотел бы сказать, это то, что данные, представленные в Инструментах для веб-мастеров (Здоровье> Индексный статус> Всего проиндексировано), будут более точными, чем данные, полученные при поиске по сайту: domain.com. Сайт: поиск всегда возвращает гораздо более высокую цифру в моем опыте, но если вы пройдете через SERPs, фактическое число результатов будет меньше, чем показатель «О результатах NNNN».
MrWhite

Ну, эта страница была причиной, почему я заинтересовался этим в первую очередь. За 3 месяца количество проиндексированных страниц возросло с 27 000 до 567 000, и я хочу знать, почему.
Ли

Ответы:


6

К сожалению, нет никакого способа получить полный список каждой проиндексированной страницы в Google. Даже решение milo5b даст вам не более 1000 URL.

Похоже, у вас есть проблемы с дублированием контента. В разделе «Инструменты для веб-мастеров» выберите «Здоровье»> «Статус индекса», и он покажет совокупное количество страниц, проиндексированных с течением времени. Если график совершает большой скачок в какой-то момент, вы можете быть в состоянии сработать, если конкретное изменение на вашем сайте вызвало скачок.

Вы также можете попробовать использовать инструменты Bing для веб-мастеров . У них есть Index Explorer, который может помочь вам найти URL-адреса. Пауки поисковых систем очень похожи, поэтому, если Google нашел эти ссылки, Bing, вероятно, тоже.

Я думал, что у Bing есть способ экспортировать большую часть своих данных, но я не могу найти их беглым взглядом. Хотя есть API, так что вы можете использовать его для извлечения всего.


Спасибо за предложение Bing, но они проиндексировали только 9000 страниц, и я уверен, что это не те ссылки, которые мне были нужны.
Ли

8

В результате поиска по проблемной подпапке я начал искать сайт: domain.com/foo/bar/, но в процессе поиска я наткнулся на метод получения результатов поиска в файл Excel.

Откройте таблицу Google Docs и используйте эту формулу:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=1"; "//cite")

Он получит только первые 100 результатов, но вы можете использовать его снова, чтобы получить следующие 100. Просто измените переменную start:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=100"; "//cite")

Это даст только до 1000 результатов, как упоминалось ранее в DisgruntledGoat, но формулу можно изменить, чтобы предоставить ссылки из определенных подкаталогов:

= importXml ("www.google.com/search?q=site:domain.com/foo/bar/&num=100&start=1"; "// cite")


Отличный совет с Google Docs. Просто интересно, какова на самом деле проблема с дополнительными проиндексированными страницами - это дублированный контент?
MrWhite

1
Я проследил это до vBulletin, программного обеспечения форума, которое мы используем. Они добавили новую функцию под названием поток активности и добавили в раздел пользователей. Таким образом, каждый пользователь будет иметь не только страницы своей активности в своем профиле, но и всю активность каждого своего друга. На вершине Google индексировались пустые страницы активности, потому что vBulletin не возвращал 404. Я закончил тем, что не проиндексировал весь раздел.
Ли

importXML корректно работает только со старыми Sheets, которые можно активировать по этой ссылке: g.co/oldsheets
i.amniels

2

Вы можете написать скрипт, который анализирует выдачу Google SERP (например, PHP + Curl) и сохранять каждую ссылку в файле CSV. Будьте осторожны, чтобы ваш скрипт вел себя как человек, потому что Google может заблокировать ваш IP в результатах поиска на несколько часов, если вы злоупотребите этим.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.