Чтобы ваш файл PDF (или любой другой файл, кроме HTML) не отображался в результатах поиска, единственным способом является использование X-Robots-Tag
заголовка ответа HTTP , например:
X-Robots-Tag: noindex
Это можно сделать, добавив следующий фрагмент в корневой файл .htaccess сайта или файл httpd.conf:
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>
Обратите внимание, что для того, чтобы описанное выше работало, вы должны иметь возможность изменять заголовки HTTP рассматриваемого файла. Таким образом, вы не сможете сделать это, например, на страницах GitHub .
Также обратите внимание , что robots.txt никак не предотвратить страницу от быть перечислены в результатах поиска.
Что он делает, это запрещает роботу сканировать вашу страницу, но если третьи лица ссылаются на ваш файл PDF со своего веб-сайта, ваша страница все равно будет в списке.
Если вы не позволите боту сканировать вашу страницу с помощью robots.txt , у него не будет возможности увидеть X-Robots-Tag: noindex
тег ответа. Поэтому никогда не запрещайте страницу в robots.txt, если вы используете X-Robots-Tag
заголовок. Более подробную информацию можно найти в Google Developers: Robots Meta Tag .