В последнее время я видел, что scribd очень усложняет пользователям (свободным пользователям) просмотр документа, размещенного на их сайте. Нет возможности поиска в документе, не говоря уже о возможности загрузить его.
Используя javascript, они загружают страницы по требованию в браузер, поэтому функция «сохранить как» в браузере мало помогает.
К моему изумлению, я увидел, что даже копирование / вставка текста копирует бред в буфер обмена! Чтобы проверить, в чем дело, я отключил JavaScript в браузере, а затем снова загрузил тот же документ. Вуаля, я видел бред. Итак, похоже, что javascript от scribd каким-то образом декодирует бессмысленный текст и затем отображает его в браузере.
Теперь мой вопрос: даже после включения javascript и правильного отображения текста в браузере, если я перехожу к объектам DOM, соответствующим выбранному тексту, я все равно вижу бессмысленный текст.
Итак, теперь я в замешательстве. Текст отображается правильно для пользователя, но объекты DOM по-прежнему содержат бред. Таким образом, вопрос в том, какой тип javascript-хуков / кода использует сайт, чтобы иметь возможность сохранить тарабарщину в объектах DOM и по-прежнему отображать декодированный текст?
Есть ли способ получить доступ к декодированному тексту? Мое намерение состоит не в том, чтобы перепроектировать алгоритм декодирования, а в том, чтобы найти, где хранится декодированный текст?
Пример документа:
Посмотрите, что происходит, когда вы включаете / выключаете Javascript!