Загрузите и сохраните файл PDF с модулем запросов Python

Question 1

Я пытаюсь загрузить файл PDF с веб-сайта и сохранить его на диск. Мои попытки либо терпят неудачу с ошибками кодирования, либо приводят к пустым PDF-файлам.

In [1]: import requests

In [2]: url = 'http://www.hrecos.org//images/Data/forweb/HRTVBSH.Metadata.pdf'

In [3]: response = requests.get(url)

In [4]: with open('/tmp/metadata.pdf', 'wb') as f:
   ...:     f.write(response.text)
---------------------------------------------------------------------------
UnicodeEncodeError                        Traceback (most recent call last)
<ipython-input-4-4be915a4f032> in <module>()
      1 with open('/tmp/metadata.pdf', 'wb') as f:
----> 2     f.write(response.text)
      3 

UnicodeEncodeError: 'ascii' codec can't encode characters in position 11-14: ordinal not in range(128)

In [5]: import codecs

In [6]: with codecs.open('/tmp/metadata.pdf', 'wb', encoding='utf8') as f:
   ...:     f.write(response.text)
   ...:

Я знаю, что это какая-то проблема с кодеком, но я не могу заставить ее работать.

Question 2

response.contentВ этом случае следует использовать :

with open('/tmp/metadata.pdf', 'wb') as f:
    f.write(response.content)

Из документа :

Вы также можете получить доступ к телу ответа в байтах для нетекстовых запросов:
>>> r.content
b'[{"repository":{"open_issues":0,"url":"https://github.com/...

Это означает: response.textвернуть вывод в виде строкового объекта, использовать его при загрузке текстового файла . Например, файл HTML и т. Д.

И response.contentверните результат в виде байтового объекта, используйте его при загрузке двоичного файла . Например, файл PDF, аудиофайл, изображение и т. Д.

Вы также можете использовать response.rawвместо него . Однако используйте его, когда файл, который вы собираетесь загрузить, большой. Ниже приведен базовый пример, который вы также можете найти в документе:

import requests

url = 'http://www.hrecos.org//images/Data/forweb/HRTVBSH.Metadata.pdf'
r = requests.get(url, stream=True)

with open('/tmp/metadata.pdf', 'wb') as fd:
    for chunk in r.iter_content(chunk_size):
        fd.write(chunk)

chunk_size- это размер блока, который вы хотите использовать. Если вы установите его как 2000, то запросы будут загружать в этот файл первые 2000байты, записывать их в файл и делать это снова, снова и снова, если это не будет завершено.

Так что это может сэкономить вашу оперативную память. Но я бы предпочел использовать response.contentвместо этого в этом случае, поскольку ваш файл небольшой. Как видите, использование response.rawсложное.

Относится:

Question 3

В Python 3 я считаю, что pathlib - самый простой способ сделать это. Response.content запроса прекрасно сочетается с write_bytes pathlib.

from pathlib import Path
import requests
filename = Path('metadata.pdf')
url = 'http://www.hrecos.org//images/Data/forweb/HRTVBSH.Metadata.pdf'
response = requests.get(url)
filename.write_bytes(response.content)

Question 4

Вы можете использовать urllib:

import urllib.request
urllib.request.urlretrieve(url, "filename.pdf")

Question 5

Как правило, это должно работать в Python3:

import urllib.request 
..
urllib.request.get(url)

Помните, что urllib и urllib2 не работают должным образом после Python2.

Если в каких-то загадочных случаях запросы не работают (случилось со мной), вы также можете попробовать использовать

wget.download(url)

Связанный:

Вот достойное объяснение / решение для поиска и загрузки всех файлов pdf на веб-странице:

https://medium.com/@dementorwriter/notesdownloader-use-web-scraping-to-download-all-pdfs-with-python-511ea9f55e48

Question 6

Обратите внимание, я новичок. Если мое решение неверно, пожалуйста, исправьте и / или дайте мне знать. Я тоже могу узнать что-то новое.

Мое решение:

Измените downloadPath в соответствии с тем, где вы хотите сохранить файл. Не стесняйтесь использовать абсолютный путь для вашего использования.

Сохраните ниже как downloadFile.py.

Применение: python downloadFile.py url-of-the-file-to-download new-file-name.extension

Не забудьте добавить расширение!

Пример использования: python downloadFile.py http://www.google.co.uk google.html

import requests
import sys
import os

def downloadFile(url, fileName):
    with open(fileName, "wb") as file:
        response = requests.get(url)
        file.write(response.content)


scriptPath = sys.path[0]
downloadPath = os.path.join(scriptPath, '../Downloads/')
url = sys.argv[1]
fileName = sys.argv[2]      
print('path of the script: ' + scriptPath)
print('downloading file to: ' + downloadPath)
downloadFile(url, downloadPath + fileName)
print('file downloaded...')
print('exiting program...')

Question 7

tmpЧто касается ответа Кевина, который нужно написать в папке , он должен быть таким:

with open('./tmp/metadata.pdf', 'wb') as f:
    f.write(response.content)

он забыл .перед адресом и, конечно, ваша папка tmpдолжна была быть уже создана