Как получить десятки миллионов страниц, проиндексированных ботом Google?


12

В настоящее время мы разрабатываем сайт, который в настоящее время содержит 8 миллионов уникальных страниц, которые сразу же вырастут до 20 миллионов, а в конечном итоге - до 50 миллионов и более.

Прежде чем критиковать ... Да, он предоставляет уникальный, полезный контент. Мы постоянно обрабатываем необработанные данные из общедоступных записей и, выполняя некоторую очистку данных, объединение сущностей и сопоставление отношений, мы смогли генерировать качественный контент, разрабатывая довольно полезный и уникальный сайт, отчасти благодаря широте охвата. данные.

Его PR равен 0 (новый домен, нет ссылок), и мы получаем около 500 страниц в день, что составляет около 30 000 проиндексированных страниц. При такой скорости потребуется более 400 лет, чтобы проиндексировать все наши данные.

У меня есть два вопроса:

  1. Является ли скорость индексации напрямую связанной с PR, и под этим я подразумеваю, достаточно ли она коррелирует, что при покупке старого домена с хорошим PR мы получим работоспособную скорость индексации (около 100 000 страниц в день).
  2. Существуют ли SEO-консультанты, которые специализируются на оказании помощи самому процессу индексации. В остальном, у нас очень хорошо получается SEO, особенно на странице, кроме того, конкуренция за наши ключевые фразы «длинного хвоста» довольно низкая, поэтому наш успех зависит в основном от количества проиндексированных страниц.

Наш основной конкурент достиг примерно 20 мм страниц, проиндексированных всего за год, наряду с рейтингом Alexa 2000.

Примечательные качества у нас на месте:

  • скорость загрузки страницы довольно хорошая (250-500 мс)
  • нет ошибок (нет 404 или 500 ошибок при получении паука)
  • мы используем инструменты Google для веб-мастеров и ежедневно регистрируемся
  • дружественные URL на месте
  • Я боюсь отправлять файлы Sitemap. Некоторые публикации сообщества SEO предлагают новый сайт с миллионами страниц, и ни один PR не является подозрительным. В Google есть видео Мэтта Каттса, рассказывающего о поэтапной установке крупных сайтов , чтобы избежать повышенного внимания (примерно в 2:30 в видео).

  • Кликабельные ссылки на сайты обеспечивают все страницы, не более четырех страниц и, как правило, не более 250 (-ых) внутренних ссылок на странице.
  • Якорный текст для внутренних ссылок логичен и иерархически добавляет релевантность данным на страницах сведений.
  • Ранее мы установили самую высокую скорость сканирования в инструментах для веб-мастеров (максимум около страницы каждые две секунды, максимум). Я недавно повернул его обратно, чтобы "позволить Google решать", что является то, что рекомендуется.


6
Мне бы очень хотелось, чтобы 50 миллионов страниц содержали уникальное полезное содержимое. Это круто Википедия не имеет столько знаний по сравнению с вашим сайтом, это всего лишь 3,5 миллиона страниц сегодня [ссылка. en.wikipedia.org/wiki/File:EnwikipediaArt.PNG]
Марко Демайо,

3
:) Глядя сквозь сарказм ... это не количество страниц, которые делают Википедию огромным источником знаний - ясно, да - более полезным. Наш сайт генерирует страницу для каждой записи о человеке и страницу для каждой записи о компании в нашей базе данных. Мы используем анализ и очистку данных, чтобы динамически генерировать отношения между деловыми партнерами, графически изображая деловую сеть связанных людей и корпораций. Количество страниц зависит от количества данных, которые мы имеем. Сделав его доступным для поиска через поиск, он станет более полезным для всех. Спасибо за ваш комментарий.
Крис Адранья

1
Получите больше PageRank, получая больше ссылок. Ссылка на ваши страницы со страниц, которые имеют PageRank.
Алекс Блэк

Ответы:


20

Некоторые потенциальные стратегии:

  • Инструменты Google для веб-мастеров позволяют запрашивать повышенную скорость сканирования. Попробуйте сделать это, если вы еще этого не сделали.
  • Посмотрите еще раз на свою архитектуру навигации, чтобы увидеть, не можете ли вы улучшить доступ к большему количеству своего контента. Посмотрите на это с точки зрения пользователя: если пользователю трудно найти конкретную часть информации, это может быть сложно и для поисковых систем.
  • Убедитесь, что у вас нет дублирующегося контента из-за несовместимых параметров URL или неправильного использования слешей. Удаляя дублирующийся контент, вы сокращаете время, затрачиваемое роботом Google на сканирование того, что уже проиндексировано.
  • По возможности используйте ссылки на контент и ссылки внутри сайта.
  • Перемешать некоторые из ваших ссылок. Боковая панель со случайным внутренним содержимым - отличный шаблон для использования.
  • Используйте даты и другие микроформаты .
  • Используйте RSS-каналы, где это возможно. RSS-каналы будут функционировать почти так же, как карта сайта (фактически, Инструменты для веб-мастеров позволяют отправлять канал в виде карты сайта).
  • Что касается файлов Sitemap, см. Этот вопрос .
  • Найдите способы получить внешние ссылки на ваш контент. Это может ускорить процесс его индексации. Если это соответствует типу контента, в этом поможет облегчение обмена в социальных сетях или по электронной почте.
  • Предоставьте API для стимулирования использования ваших данных и внешних ссылок на ваши данные. Вы можете иметь ссылку на источник в качестве требования к использованию данных.
  • Примите сообщество. Если вы обращаетесь к нужным людям правильным образом, вы получите внешние ссылки через блоги и Twitter.
  • Ищите способы создать сообщество вокруг ваших данных. Найдите способ сделать это социальным. API, гибридные приложения, социальные виджеты - все это помогает, но также помогают блог, витрины сообщества, форумы и игровая механика (см. Также это видео ).
  • Приоритет, какой контент вы проиндексировали. С таким большим количеством данных, не все это будет абсолютно необходимым. Примите стратегическое решение относительно того, какой контент наиболее важен, например, он будет самым популярным, у него больше шансов на рентабельность инвестиций, он будет самым полезным и т. Д., И убедитесь, что этот контент проиндексирован первым.
  • Сделайте подробный анализ того, что делает ваш конкурент, чтобы проиндексировать их контент. Посмотрите на их архитектуру сайта, навигацию, внешние ссылки и т. Д.

Наконец, я должен сказать это. SEO и индексация - это всего лишь небольшие составляющие ведения бизнес-сайта. Не теряйте внимание на рентабельности инвестиций ради SEO. Даже если у вас много трафика из Google, это не имеет значения, если вы не можете конвертировать его. SEO важно, но его нужно держать в перспективе.

Редактировать :

В качестве дополнения к вашему варианту использования: вы можете рассмотреть возможность предоставления отзывов или отзывов для каждого человека или компании. Кроме того, выдача пользовательских значков, таких как StackOverflow, может побудить хотя бы некоторых людей ссылаться на свой профиль на вашем сайте. Это будет стимулировать некоторые внешние ссылки на ваши глубокие страницы, что может означать ускорение индексации.


1
+1 - всегда стоит упомянуть, что SEO - это микрокосм более серьезной проблемы продвижения бизнеса; Кроме того, легче всего (по крайней мере, для технически мыслящих людей) заблудиться. Сейчас больше людей смотрят телевизор, чем когда-либо ранее в истории - в зависимости от того, что вы предлагаете, у телевизионной рекламы может быть лучше ROI, чем PPC ...
2010 г.

Хорошая идея по микроформатам. Это не серебряная пуля, но у нас есть ряд мест, где может быть полезна семантическая разметка с использованием стандартов микроформатов.
Крис Адранья

1
Я не знаю, будут ли какие-либо микроформаты (кроме, возможно, временной метки) означать ускорение индексации, но могут быть и другие преимущества SEO в их использовании. По крайней мере, это облегчает сканирование ваших страниц и может помочь выделить вашу запись на странице результатов поисковой системы (в зависимости от микроформата).
Virtuosi Media

5

Как получить десятки миллионов страниц, проиндексированных ботом Google?

Это не произойдет в одночасье, однако, я гарантирую, что вы увидите больше своих страниц быстрее, если входящие ссылки на глубокий контент (в частности, на страницы Sitemap или индексы каталогов, которые указывают на еще более глубокий контент) добавляются с аналогично больших сайтов, которые был вокруг некоторое время.

Будет ли старый домен достаточным для индексирования 100 000 страниц в день?

Сомнительно, если только вы не говорите о старом домене, который на протяжении многих лет активно занимался (т. Е. Накопленный контент и входящие ссылки).

Существуют ли SEO-консультанты, которые специализируются на оказании помощи самому процессу индексации.

Когда вы задаете вопрос таким образом, я уверен, что вы найдете много SEO, которые громко заявляют «да!» но, в конце концов, предложения Virtuosi Media - такой же хороший совет, какой вы получите от любого из них (не говоря уже о потенциально плохом совете).

Исходя из этого, вам следует подумать об использовании каналов развития бизнеса и связей с общественностью для создания рейтинга вашего сайта на этом этапе - получить больше ссылок на ваш контент (желательно путем установления партнерских отношений с существующим сайтом, который предлагает контент, ориентированный на регион, для ссылки на ваш сайт. Например, контент, разделенный по регионам), чтобы больше людей просматривало ваш сайт (у некоторых будет установлена ​​панель инструментов Google, чтобы их трафик мог работать на поиск страниц), и, если возможно, рассказывайте о своем бизнесе в новостях или в сообществах. людей, которые нуждаются в этом (если вы планируете взимать плату за определенные услуги, рассмотрите возможность рекламы бесплатного пробного периода, чтобы заинтересовать).


3

Есть два возможных варианта, о которых я знаю, что они могут оказать некоторую помощь.

Первый: маленький трюк, который я попробовал с веб-сайтом с тремя миллионами страниц, который работал на удивление хорошо, заключался в том, что мой коллега изобрел цикл сканирования. Возможно, вам придется немного манипулировать этой идеей, чтобы она подходила для вашего сайта.

По сути, мы установили день, когда не думали, что получим много трафика (на Рождество), и буквально скопировали список каждой ссылки на нашем сайте и вставили каждую из них в файл php, который вызывался на каждой веб-странице. (Боковой панели php-файл)

Затем мы пошли в консоль поиска Google (ранее инструменты Google для веб-мастеров) и сказали Google выбрать URL и сканировать каждую ссылку на этой странице URL.

Так как у вас так много ссылок, а на страницах, на которые они ссылаются, также имеется огромное количество ссылок, Google зацикливается и сканирует сайт гораздо быстрее. Сначала я был настроен скептически, но это сработало как шарм.

Перед тем, как сделать это, вы должны убедиться, что у вас очень эффективная настройка базы данных и очень мощный сервер, иначе это может привести к перегрузке сервера или ухудшению вашего SEO из-за медленного времени загрузки страницы.

Если это не вариант для вас, вы всегда можете посмотреть в API консоли Google Cloud. У них есть API консоли поиска, поэтому вы можете написать скрипт, чтобы либо добавить каждую веб-страницу в качестве собственного экземпляра веб-сайта в поисковую консоль, либо чтобы Google выбирал каждый из ваших URL-адресов.

API-интерфейс может очень быстро усложниться, но при правильном использовании он является удивительным инструментом.

Удачи!


1
Связывание ваших страниц - отличная стратегия для их сканирования. Намного лучше, чем пытаться полагаться на карту сайта XML. Однако я бы оставил эти ссылки на месте все время, а не только на Рождество. Как только вы уберете ссылки, Google обнаружит потерянные ссылки на страницах и прекратит их индексацию.
Стивен Остермиллер

2

Игровая система никогда не будет хорошей идеей, если вы ведете законный бизнес, который дорожит своей онлайн репутацией. Кроме того, если ваш сайт действительно обеспечивает ценность, то чем дольше он работает (я полагаю, вы занимаетесь каким-либо маркетингом?), Тем больше обратных ссылок будет накапливаться, поэтому ваш PR будет расти, а скорость сканирования возрастет.

Кроме того, если у вас есть хорошая структура ссылок на вашем сайте (все ваши страницы могут быть обнаружены при разумном количестве кликов / ссылок), вам нужно всего лишь отправить основные индексы через карту сайта. Как только эти страницы проиндексированы Google, они будут сканироваться Google, а Google будет индексировать остальные страницы самостоятельно.


+1 RE: игровая система - хотя я думаю, что следует отметить, что существует множество альтернатив игровой системе, которые позволяют веб-мастеру создавать законные обратные ссылки (которые будут полезны для посетителей) на его или ее сайт.
2010 года

@danlefree: Определенно. Я имел в виду только покупку доменных имен с истекшим сроком действия, чтобы получить их остаточный PR / трафик. Но если вы можете рекламировать свой сайт, рассылать пресс-релизы в отраслевые издания, на сайты с обзорами приложений и т. Д., То это очень хороший способ создания законных обратных ссылок.
Lèse Majesté

2

Одна вещь, которую я заметил в инструментах Google для веб-мастеров, заключается в том, что они запускаются с максимальной скоростью сканирования около двух запросов в секунду. Примерно через неделю или около того, если они обнаружат, что к веб-сайту часто обращаются, они позволят вам увеличить ваш лимит.

Я являюсь одним из организаторов веб-сайта, на котором размещено более 500 000 исходных изображений, и иногда мой максимальный лимит составляет 10 запросов в секунду, поскольку я получаю не менее 700–1000 обращений в день, если не больше.

Поэтому вы можете каждую неделю проверять наличие инструментов для веб-мастеров, чтобы узнать, сможете ли вы увеличить лимит сканирования. Когда вы измените лимит сканирования, Google вернет его обратно к своим предпочтительным настройкам по истечении определенного дня (который вам покажет интерфейс). Затем в этот день снова поднимите лимит.


2

У меня был опыт только такого рода сайта. Я управлял каталогом статей много лет назад, и процент проиндексированных и, что важнее, фактических страниц в значительной степени напрямую коррелировал с количеством ссылающихся доменов, то есть с количеством уникальных веб-сайтов, на которые ссылаются. Большому сайту с миллионами страниц требуется несколько тысяч Разумные домены, ссылки на которые нужно выполнять самостоятельно.

Это не произойдет наверняка в одночасье, но если вы будете создавать 5-10 хороших ссылок в день, когда это начнет происходить, тогда вы сможете получать доход и использовать его для оплаты профессионального SEO-набора для создания ссылок. для вас.

Сейчас я создаю похожий информационный сайт, его первые годы, но у меня та же проблема с 4 миллионами страниц контента со скоростью сканирования 700-1000 страниц в день.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.