Веб-мастера web-crawlers

4

Я увидел, что у Google было хорошее предложение / стандарт для обеспечения возможности сканирования приложений Ajax через #! (хэш бэнг). http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html Мои вопросы: Они уже используют это «предложение» в реальном мире? Другие поисковые системы - Bing специально, также используют или планируют использовать его?

12 seo google ajax web-crawlers

4

Могут ли файлы robots.txt и sitemap.xml быть динамическими с помощью перенаправления .htaccess?

У меня есть мультиязычный и многодоменный сайт. Он проходит через уникальную установку CMS (Drupal), поэтому у меня есть один корневой каталог. Поэтому, если у меня есть статический файл robots.txt, я могу показать файлы только для одного домена, насколько я знаю. Могу ли я поставить строку в .htaccess Redirect 301 /robots.txt …

12 htaccess redirects sitemap web-crawlers

4

Google не сканирует файлы CDN

Я заметил, что Google Webmaster Tools сообщает о большом количестве заблокированных ресурсов на моем веб-сайте. Прямо сейчас все "заблокированные ресурсы" - это .css, .js и изображения (.jpg, .png), которые я обслуживаю из Cloudfront CDN. Я потратил много времени на тестирование и пытался выяснить, почему Google не сканирует эти файлы и …

11 google-search-console web-crawlers googlebot cdn amazon-cloudfront

2

Какие боты действительно стоит пускать на сайт?

Написав несколько ботов и увидев огромное количество случайных ботов, которые сканируют сайт, я задаюсь вопросом, как веб-мастер, каких ботов действительно стоит пускать на сайт? Сначала я подумал, что размещение ботов на сайте потенциально может принести на него реальный трафик. Есть ли какая-либо причина, по которой боты, о которых неизвестно, посылают …

11 seo web-crawlers robots.txt googlebot bingbot

2

Инструменты Google для веб-мастеров говорят мне, что роботы блокируют доступ к карте сайта

Это мой robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Но Инструменты Google для веб-мастеров говорят мне, что роботы блокируют доступ к карте сайта: Мы столкнулись с ошибкой при попытке доступа к вашему файлу Sitemap. Убедитесь, что ваш файл Sitemap соответствует нашим правилам и доступен в указанном вами …

11 google-search-console robots.txt web-crawlers

4

Adsense click bot - это бомба с кликом моего сайта

У меня есть сайт, который получает примерно 7 000 - 10 000 просмотров страниц в день прямо сейчас. Начиная с 1 часа ночи 01.07.12 я заметил, что CTR резко вырос. Эти клики будут зачислены на счет, а затем списаны вскоре после этого. Таким образом, они были явно мошенническими кликами. На …

11 google-adsense advertising web-crawlers botattack

6

Каков наилучший способ исключить ботов из числа просмотров?

Мой веб-сайт считает количество посетителей на определенных страницах. Я заметил, что Google и другие боты «щелкают» по моему сайту как сумасшедшие, и некоторые страницы получают нереалистичное количество просмотров (по сравнению с теми, что созданы людьми). Я прошу лучшую практику, чтобы исключить этих ботов из моих просмотров. Очевидно, что простой «пользовательский …

11 php mysql web-crawlers best-practices

1

Робот Google отправляет тысячи запросов в наш локатор карт и использует квоту API

У нас есть страница поиска магазина на сайте нашего клиента. Конечный пользователь вводит свой почтовый индекс и радиус поиска, и мы отображаем результаты на карте Google. Недавно мы начали замечать, что сайт достигает лимита бесплатного поиска по карте (примерно 25 000 в сутки) без заметного увеличения общего трафика. Я включил …

10 web-crawlers google-maps

1

Как работает «Noindex:» в robots.txt?

Я наткнулся на эту статью в моих новостях SEO сегодня. Кажется, подразумевается, что вы можете использовать Noindex:директивы в дополнение к стандартным Disallow:директивам в robots.txt . Disallow: /page-one.html Noindex: /page-two.html Похоже, что это помешает поисковым системам сканировать первую страницу и не позволит им проиндексировать вторую страницу. Эта директива robots.txt поддерживается Google …

10 web-crawlers robots.txt googlebot noindex

2

Разрешить сканировать сайт могут только боты Google и Bing

Я использую следующий файл robots.txt для сайта: Цель - разрешить googlebot и bingbot доступ к сайту, кроме страницы, /bedven/bedrijf/*и запретить всем остальным роботам сканировать сайт. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bing Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: …

10 web-crawlers robots.txt

1

Объединение пользовательских агентов в robots.txt

Могут ли пользовательские агенты быть перечислены вместе, а затем следовать их общим правилам, как в robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

10 web-crawlers robots.txt user-agent

2

Знак плюс перед URL в пользовательских агентах

Я запустил небольшой веб-сканер и должен был решить, какой пользовательский агент использовать для него. Списки агентов поиска и Wikipedia предлагают следующий формат: examplebot/1.2 (+http://www.example.com/bot.html) Однако некоторые боты опускают знак плюс перед URL. И мне интересно, что это значит, в первую очередь, но не смог найти никакого объяснения. RFC 2616 считает …

10 web-crawlers http user-agent

1

Как Google удалось сканировать мои 403 страницы?

У меня было несколько личных файлов в папке в школьной папке. Вы можете увидеть, что файлы существуют, перейдя по адресу myschool.edu/myusername/myfolder, но попытка получить доступ к самим файлам через myschool.edu/myusername/myfolder/myfile.html возвращает ошибку 403. И все же Google каким-то образом удалось захватить содержимое этих личных файлов и сохранить их в своем …

10 web-crawlers security googlebot

6

Как правильно (де) разрешить боту archive.org? Изменились ли вещи, если и когда?

У меня есть веб-сайт, который я не хочу индексировать поисковыми системами, но я хочу сохранить его навеки на сайте archive.org. Итак, мой robots.txtначинается с этого: User-agent: * Disallow: / Сегодня, согласно archive.org, я должен добавить следующее в мои, robots.txtчтобы позволить их ботам: User-agent: ia_archiver Disallow: Но я уже сделал то, …

10 web-crawlers robots.txt internet-archive

2

Должны ли мы отказаться от схемы сканирования AJAX?

Так что теперь Google отказался от схемы сканирования AJAX . Они говорят, что не стоит внедрять его на новых веб-сайтах, потому что он больше не нужен, поскольку у робота Google теперь нет проблем с просмотром динамического контента. Должны ли мы немедленно доверять этому утверждению или лучше какое-то время придерживаться устаревшего …

9 seo web-crawlers googlebot ajax

Вопросы с тегом «web-crawlers»