Вопросы с тегом «web-crawlers»

Компьютерная программа, которая обращается к веб-страницам для различных целей (для очистки содержимого, для предоставления поисковым системам информации о вашем сайте и т. Д.)

4
Статус Crawlable Ajax?
Я увидел, что у Google было хорошее предложение / стандарт для обеспечения возможности сканирования приложений Ajax через #! (хэш бэнг). http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html Мои вопросы: Они уже используют это «предложение» в реальном мире? Другие поисковые системы - Bing специально, также используют или планируют использовать его?

4
Могут ли файлы robots.txt и sitemap.xml быть динамическими с помощью перенаправления .htaccess?
У меня есть мультиязычный и многодоменный сайт. Он проходит через уникальную установку CMS (Drupal), поэтому у меня есть один корневой каталог. Поэтому, если у меня есть статический файл robots.txt, я могу показать файлы только для одного домена, насколько я знаю. Могу ли я поставить строку в .htaccess Redirect 301 /robots.txt …

4
Google не сканирует файлы CDN
Я заметил, что Google Webmaster Tools сообщает о большом количестве заблокированных ресурсов на моем веб-сайте. Прямо сейчас все "заблокированные ресурсы" - это .css, .js и изображения (.jpg, .png), которые я обслуживаю из Cloudfront CDN. Я потратил много времени на тестирование и пытался выяснить, почему Google не сканирует эти файлы и …

2
Какие боты действительно стоит пускать на сайт?
Написав несколько ботов и увидев огромное количество случайных ботов, которые сканируют сайт, я задаюсь вопросом, как веб-мастер, каких ботов действительно стоит пускать на сайт? Сначала я подумал, что размещение ботов на сайте потенциально может принести на него реальный трафик. Есть ли какая-либо причина, по которой боты, о которых неизвестно, посылают …

2
Инструменты Google для веб-мастеров говорят мне, что роботы блокируют доступ к карте сайта
Это мой robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Но Инструменты Google для веб-мастеров говорят мне, что роботы блокируют доступ к карте сайта: Мы столкнулись с ошибкой при попытке доступа к вашему файлу Sitemap. Убедитесь, что ваш файл Sitemap соответствует нашим правилам и доступен в указанном вами …

4
Adsense click bot - это бомба с кликом моего сайта
У меня есть сайт, который получает примерно 7 000 - 10 000 просмотров страниц в день прямо сейчас. Начиная с 1 часа ночи 01.07.12 я заметил, что CTR резко вырос. Эти клики будут зачислены на счет, а затем списаны вскоре после этого. Таким образом, они были явно мошенническими кликами. На …

6
Каков наилучший способ исключить ботов из числа просмотров?
Мой веб-сайт считает количество посетителей на определенных страницах. Я заметил, что Google и другие боты «щелкают» по моему сайту как сумасшедшие, и некоторые страницы получают нереалистичное количество просмотров (по сравнению с теми, что созданы людьми). Я прошу лучшую практику, чтобы исключить этих ботов из моих просмотров. Очевидно, что простой «пользовательский …

1
Робот Google отправляет тысячи запросов в наш локатор карт и использует квоту API
У нас есть страница поиска магазина на сайте нашего клиента. Конечный пользователь вводит свой почтовый индекс и радиус поиска, и мы отображаем результаты на карте Google. Недавно мы начали замечать, что сайт достигает лимита бесплатного поиска по карте (примерно 25 000 в сутки) без заметного увеличения общего трафика. Я включил …

1
Как работает «Noindex:» в robots.txt?
Я наткнулся на эту статью в моих новостях SEO сегодня. Кажется, подразумевается, что вы можете использовать Noindex:директивы в дополнение к стандартным Disallow:директивам в robots.txt . Disallow: /page-one.html Noindex: /page-two.html Похоже, что это помешает поисковым системам сканировать первую страницу и не позволит им проиндексировать вторую страницу. Эта директива robots.txt поддерживается Google …

2
Разрешить сканировать сайт могут только боты Google и Bing
Я использую следующий файл robots.txt для сайта: Цель - разрешить googlebot и bingbot доступ к сайту, кроме страницы, /bedven/bedrijf/*и запретить всем остальным роботам сканировать сайт. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bing Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: …

1
Объединение пользовательских агентов в robots.txt
Могут ли пользовательские агенты быть перечислены вместе, а затем следовать их общим правилам, как в robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

2
Знак плюс перед URL в пользовательских агентах
Я запустил небольшой веб-сканер и должен был решить, какой пользовательский агент использовать для него. Списки агентов поиска и Wikipedia предлагают следующий формат: examplebot/1.2 (+http://www.example.com/bot.html) Однако некоторые боты опускают знак плюс перед URL. И мне интересно, что это значит, в первую очередь, но не смог найти никакого объяснения. RFC 2616 считает …

1
Как Google удалось сканировать мои 403 страницы?
У меня было несколько личных файлов в папке в школьной папке. Вы можете увидеть, что файлы существуют, перейдя по адресу myschool.edu/myusername/myfolder, но попытка получить доступ к самим файлам через myschool.edu/myusername/myfolder/myfile.html возвращает ошибку 403. И все же Google каким-то образом удалось захватить содержимое этих личных файлов и сохранить их в своем …

6
Как правильно (де) разрешить боту archive.org? Изменились ли вещи, если и когда?
У меня есть веб-сайт, который я не хочу индексировать поисковыми системами, но я хочу сохранить его навеки на сайте archive.org. Итак, мой robots.txtначинается с этого: User-agent: * Disallow: / Сегодня, согласно archive.org, я должен добавить следующее в мои, robots.txtчтобы позволить их ботам: User-agent: ia_archiver Disallow: Но я уже сделал то, …

2
Должны ли мы отказаться от схемы сканирования AJAX?
Так что теперь Google отказался от схемы сканирования AJAX . Они говорят, что не стоит внедрять его на новых веб-сайтах, потому что он больше не нужен, поскольку у робота Google теперь нет проблем с просмотром динамического контента. Должны ли мы немедленно доверять этому утверждению или лучше какое-то время придерживаться устаревшего …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.