К сожалению, нет никакого способа получить полный список каждой проиндексированной страницы в Google. Даже решение milo5b даст вам не более 1000 URL.
Похоже, у вас есть проблемы с дублированием контента. В разделе «Инструменты для веб-мастеров» выберите «Здоровье»> «Статус индекса», и он покажет совокупное количество страниц, проиндексированных с течением времени. Если график совершает большой скачок в какой-то момент, вы можете быть в состоянии сработать, если конкретное изменение на вашем сайте вызвало скачок.
Вы также можете попробовать использовать инструменты Bing для веб-мастеров . У них есть Index Explorer, который может помочь вам найти URL-адреса. Пауки поисковых систем очень похожи, поэтому, если Google нашел эти ссылки, Bing, вероятно, тоже.
Я думал, что у Bing есть способ экспортировать большую часть своих данных, но я не могу найти их беглым взглядом. Хотя есть API, так что вы можете использовать его для извлечения всего.