Поисковые системы сканируют PDF-файлы и, если да, существуют ли какие-либо правила, которым нужно следовать при их создании?


22

Веб-сайт, над которым я работаю, содержит несколько сотен PDF-файлов. Я не думаю, что когда-либо видел, чтобы кто-то из них возвращался в поиске, но есть ссылки на него непосредственно с нашего сайта. Они также полны ключевых слов, потому что они являются документами продукта.

Что нам нужно сделать, чтобы Google или другие поисковые системы сканировали их?

Существуют ли жесткие и быстрые правила для создания PDF-файлов, чтобы они больше нравились Google? Например, должен ли я запустить их через ghostscript, чтобы очистить поврежденные теги PDF, которые Adobe создает во время генерации?


Добавить в свой XML-файл сайта, чтобы убедиться, что они знают о них?
artlung

Ответы:


17

Google определенно индексирует PDF-файлы, и вы можете искать только PDF-файлы, добавляя их filetype:pdfв свой поисковый запрос ( пример ).

Я бы сказал, что основные вещи, которые нужно сделать для оптимизации PDF-файла, чтобы его можно было легко проиндексировать:

  • Дайте ему осмысленное имя файла
  • Заполните все свойства метаданных документа (заголовок, автор, ключевые слова и т. Д.)
  • Убедитесь, что ваш PDF состоит из реального текста, а не отсканированных изображений
  • Убедитесь, что у вас есть хороший контент с правильным использованием заголовков, так же, как вы бы HTML-документ

Дополнительные советы читайте в статье «Оптимизация PDF-документов» и « Одиннадцать советов по оптимизации PDF-файлов для поисковых систем».


ссылка labs.justsearching.co.uk/optimizing-pdf-documents-621.html больше не работает

@Christofian Спасибо - я обновил ссылку. Я предоставлю читателю возможность оценить иронию SEO-компании, переименовывающей свои ссылки без переадресации 301!
Дэн Дипломат

@DanDiplo в отношении SEO файлов PDF. Я бы предложил добавить ссылку на контент, если это применимо.
Анаджо

1

Я не уверен насчет других поисковых систем, но что касается Google, главное правило - не исключать их через robots.txt.

Это было их первое объявление о поддержке поиска в PDF.


1

Точно так же, как совместимость веб-сайта не повредит вашему SEO, так и доступность вашего PDF не повредит. Встроенная программа проверки доступности Adobe далека от совершенства, но, по крайней мере, исправление этих областей поможет вам начать работу.

Я, вероятно, трачу 5 минут на каждые 4 или 5, в основном текстовые PDF-файлы, которые мы размещаем в Интернете. Время увеличивается равномерно в зависимости от количества страниц и сложности этих страниц.

Предполагая, что у вас есть Adobe Acrobat Pro для редактирования:

  • Запустите полную проверку доступности. (Быстрая проверка довольно бессмысленна для меня)
  • Обновите метаинформацию в свойствах документа (ключевые слова, тема, язык и т. Д.)
  • Убедитесь, что теги добавлены
  • Убедитесь, что текст помечен как текст, изображения как изображения, фоновый материал как фон
  • Отметьте бесполезный пух (как украшение или дизайн) в качестве фона
  • Добавить хороший альтернативный текст к изображениям
  • Убедитесь, что в порядке чтения текст упорядочен правильно
  • На панели инструментов содержимого убедитесь, что текст не продублирован или неправильно переведен
  • Используйте сканер OCR на отсканированных страницах

Для более сложного редактирования, такого как таблицы и действительно странные ошибки Adobe, мы используем плагин CommonLook. CommonLook выполняет свою работу, но я ненавижу ее почти так же сильно, как ненавижу инструменты Adobe.

Ознакомьтесь с инструментом «Задание порядка чтения», панелью инструментов «Теги», панелью «Порядок чтения» и панелью «Содержимое». Моя работа требует полностью соответствующих документов, прежде чем выходить в Интернет, но любой может получить пользу от некоторых простых тегов и свойств документа.


На нашем сайте было более 5000 PDF-файлов, которые мы должны были вернуть и довести до полного соответствия 508. Для изучения потребовалось некоторое время, Adobe предложила, чтобы тренер не помог, но как только вы выучите его, вы действительно сможете разархивировать его.
MrChrister
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.