Вопросы с тегом «web-crawlers»

Компьютерная программа, которая обращается к веб-страницам для различных целей (для очистки содержимого, для предоставления поисковым системам информации о вашем сайте и т. Д.)

2
Есть ли разница между пустым robots.txt и вообще без robots.txt?
На веб-сервере, который я теперь должен сообщить, я заметил, что robots.txt пуст. Я задавался вопросом, есть ли разница между пустым robots.txt и никаким файлом вообще. По-разному ли ведут себя сканеры в этих двух случаях? Итак, безопасно ли просто удалить пустой файл robots.txt?

1
Запрос Bingbot для трафикаbasedsspsitemap.xml, который не существует
Этот вопрос был перенесен из-за сбоя сервера, поскольку на него можно ответить в Web-мастерах Stack Exchange. Мигрировал 6 лет назад . Журналы веб-сайта, которым я управляю, показывают запрос на несуществующий файл от Bingbot. Детали запроса Путь: /trafficbasedsspsitemap.xml Useragent: «Mozilla / 5.0 (совместимо; bingbot / 2.0; + http://www.bing.com/bingbot.htm )» IP-адрес: 65.55.213.244 …

8
Запретить роботам сканировать определенную часть страницы
Как веб-мастер, отвечающий за крошечный сайт, на котором есть форум, я регулярно получаю жалобы от пользователей на то, что как внутренняя поисковая система, так и внешние поисковые запросы (например, при использовании Google) полностью загрязнены подписями моих пользователей (они используют длинные подписи и это часть опыта форума, потому что подписи имеют …

4
Yahoo Search - это то же самое, что Bing Search сейчас?
У нас были некоторые серьезные проблемы с (невероятно) плохо написанным пауком в прошлом , и в результате мы заблокировали их. Марко Армент из Tumblr также поделился с нами своими разочарованиями 31.08.2009, что послужило причиной того, что мы заблокировали их. [Паук Yahoo] затопляет нас 70-200 запросов в секунду примерно с 5:30 …

5
Паук Google рендерит JavaScript?
Этот вопрос был перенесен из Stack Overflow, потому что на него можно ответить в Webmasters Stack Exchange. Мигрировал 9 лет назад . Знает ли паук Google, как отображать JavaScript или только HTML?

6
Хороший инструмент для сканирования моего сайта и помощи в поиске мертвых ссылок и несвязанных файлов [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он подходил для веб-мастеров Stack Exchange. Закрыто 6 лет назад . У меня довольно большой устаревший сайт с буквально тысячами PDF-файлов, которые иногда учитываются в базе данных, но часто являются …

3
Можно ли замедлить частоту сканирования Baiduspider?
Много было сделано из частоты ползания паука Baidu. Это правда: «Baiduspider ползает как сумасшедший». Я испытал это явление на сайтах, с которыми я работаю. По крайней мере, в одном случае я обнаружил, что Baiduspider сканирует примерно с той же частотой, что и робот Googlebot, несмотря на то, что Baidu обеспечивает …

3
Какой пользовательский агент я должен установить?
Есть бот Ask, который устанавливает этот заголовок: Mozilla/2.0 (compatible; Ask Jeeves/Teoma) Учитывая это, у меня есть следующие вопросы: Если я пишу веб-сканер с именем Goofy, какой пользовательский агент мне следует использовать? Какая разница, если я поставлю Mozilla/2.0или Mozilla/5.0? Любые другие предложения о том, как мне отформатировать мой пользовательский агент для …

3
SEO - адаптивный веб-сайт и дублированные меню
Каждый раз, когда я создаю адаптивный веб-сайт, я обычно создаю 2 меню: 1 скрытое и используемое для мобильных устройств, а другое отображается как главное меню, а затем скрывается для отображения мобильного меню. Всякий раз, когда речь заходит о SEO и о том, как пауки перемещаются по веб-сайту, мне не хватает …

3
Может ли robots.txt находиться в подкаталоге сервера?
У меня есть подкаталог, который я хотел бы скрыть от поисковых роботов поисковых систем. Один из способов сделать это - использовать robots.txtв корневом каталоге сервера (стандартный способ). Однако любой, кто знает URL-адрес веб-сайта и имеет некоторые базовые знания в Интернете, может получить доступ к содержимому robots.txt и определить запрещенные каталоги. …

7
Как заблокировать пауков Baidu
Большинство моих посещений происходят от пауков байду. Я не думаю, что это помогает поисковым системам вообще, поэтому я думаю о том, как их заблокировать. Может ли это быть сделано через iptables? Я использую nginx в качестве своего веб-сервера.

3
Запретить вредоносным ботам публиковать спам
Я помню сайт, закрытый из-за неправильного использования, и мне интересно, есть ли у ботов его часть. Если бот размещает что-то на моем сайте, как я могу с этим бороться? Я думал о настройке некоторых файлов cookie и об изменении файлов cookie с помощью JavaScript + отметка времени и знак (поэтому …

3
Как Google находит домен без ссылок на него?
Я недавно зарегистрировал новый домен, указал его на свой существующий сервер и настроил минимальную страницу с надписью «тест» и больше ничего. Сегодня вечером я обнаружил, что страница уже проиндексирована в Google! На сайте нет ссылок (я даже никому не говорил о домене, так как пока ничего с ним не сделал). …

2
Стоит ли блокировать ботов с моего сайта и почему?
Мои журналы полны посетителей ботов, часто из Восточной Европы и Китая. Боты идентифицированы как Ahrefs, Seznam, LSSRocketCrawler, Yandex, Sogou и так далее. Должен ли я заблокировать этих ботов с моего сайта и почему? Какие из них имеют законную цель в увеличении трафика на мой сайт? Многие из них являются SEO. …

1
Почему baidu сканирует мой сайт как сумасшедший?
Когда я проверяю свой журнал Apache, я вижу, что baidu сканировал мой сайт 10 раз в день в течение последних 2 недель. Не то чтобы я беспокоился об этом, но мне действительно любопытно, почему он это делает. Это действительно маленький одностраничный сайт с небольшим количеством входящих ссылок. Есть ли причина …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.