Несколько одновременных загрузок с использованием Wget?

207

Я использую wget для загрузки содержимого сайта, но wget загружает файлы один за другим.

Как я могу сделать загрузку wget, используя 4 одновременных соединения?

download wget

— jubo
источник

4

Аналогичный вопрос с хорошим решением: stackoverflow.com/questions/7577615/parallel-wget-in-bash

— JohnEye

Взгляните на этот проект github.com/rockdaboot/wget2

— user9869932

197

используйте aria2:

aria2c -x 16 [url]
#          |
#          |
#          |
#          ----> the number of connections

http://aria2.sourceforge.net

Я люблю это !!

— gmarian
источник

26

Я не вижу, как это помогает загрузить веб-сайт - похоже, он загружает только 1 файл. Если это правда - голоса должны быть -ве.

— Стивен

8

Я согласен, это не очень хороший ответ, потому что aria2 не может выполнять зеркалирование через web или ftp как wget или lftp. lftp выполняет зеркалирование, а также поддерживает несколько соединений.

— анахронист

9

Не забудьте -sуказать количество разделений и -kуказать минимальный размер на разделенный сегмент, иначе вы никогда не достигнете -xмаксимального количества подключений.

— Боб

2

@Stephen это для того, чтобы загружать очень большие файлы с веб-сайтов намного быстрее , используя несколько сокетов на сервере вместо одного. Это не значит, что вы можете соскрести сайт.

— Габейо

не поддерживает носки *

— Fedcomp

111

Wget не поддерживает множественные сокетные соединения для ускорения загрузки файлов.

Я думаю, что мы можем сделать немного лучше, чем gmarian ответ.

Правильный способ заключается в использовании aria2.

aria2c -x 16 -s 16 [url]
#          |    |
#          |    |
#          |    |
#          ---------> the number of connections here

— thomas.han
источник

19

Для документирования

-x, --max-connection-per-server=NUM The maximum number of connections to one server for each download. Possible Values: 1-16 Default: 1

и

-s, --split=N Download a file using N connections. If more than N URIs are given, first N URIs are used and remaining URLs are used for backup. If less than N URIs are given, those URLs are used more than once so that N connections total are made simultaneously. The number of connections to the same host is restricted by the --max-connection-per-server option. See also the --min-split-size option. Possible Values: 1-* Default: 5

— Ник

Спасибо за уточнение параметров, Ник.

— thomas.han

4

Опция -s больше не разделяет файл с одного сервера с версии 1.10. Нужно использовать --max-connection-per-server вместе, чтобы принудительно установить несколько соединений. См. Документацию aria2:

About the number of connections   Since 1.10.0 release, aria2 uses 1 connection per host by default and has   20MiB segment size restriction. So whatever value you specify using -s option,   it uses 1 connection per host. To make it behave like 1.9.x, use  --max-connection-per-server=4 --min-split-size=1M.

— Сэмюэл Ли

1

Сокращение обновления @ SamuelLi aria2c -x 4 -k 1M urlдля меня хорошо работает (сервер с лимитом 100 КБ на соединение позволяет мне загружать 400 КБ с указанными параметрами)

— EkriirkE

Критически, aria2это не поддерживает рекурсивные загрузки HTTP, что делает его замену некачественных для wgetесли -rтребуется.

— user2943160

55

Поскольку параллель GNU еще не упоминалась, позвольте мне дать другой способ:

cat url.list | parallel -j 8 wget -O {#}.html {}

— Николай Шмырев
источник

5

Это интересный подход. Не очень применимо, когда вам нужно скачать огромный файл и вы получаете ограниченную скорость на соединение, но может быть полезно при загрузке нескольких файлов.

— Никола Петкански

Выполнение этой команды запустит список 8 раз, нет? Я сделал это так же, и вместо обработки каждой строки с 8 параллелями, он просто обрабатывает весь список 8 раз.

— ДоменыРекомендуемые

4

Нет, это разбивает список на 8 рабочих мест

— Николай Шмырев

Хорошо, я определенно делаю что-то странное. Разберусь. Спасибо за быстрый ответ.

— ДоменыРекомендуемые

1

Это бесполезное использованиеcat , хотя. В этом ограниченном контексте это совершенно безвредно, но, возможно, вы не хотите использовать этот антипаттерн.

— tripleee

39

Я нашел (наверное) решение

В процессе загрузки нескольких тысяч файлов журналов с одного сервера на другой у меня внезапно возникла необходимость выполнить серьезную многопоточную загрузку в BSD, предпочтительно с Wget, поскольку это был самый простой способ справиться с этим. Немного оглядываясь, привело меня к этому маленькому самородку:
wget -r -np -N [url] &
wget -r -np -N [url] &
wget -r -np -N [url] &
wget -r -np -N [url]
Просто повторите wget -r -np -N [url]для столько потоков, сколько вам нужно ... Теперь, учитывая, что это не красиво, и, конечно, есть лучшие способы сделать это, но если вы хотите что-то быстрое и грязное, это должно сработать ...

Примечание: эта опция -Nпозволяет wgetзагружать только «новые» файлы, что означает, что она не будет перезаписывать или перезагружать файлы, если их временная метка не изменяется на сервере.

— SMUsamaShah
источник

11

Но разве это не загружает весь набор артефактов для каждого процесса?

— Кай Маттерн

10

@KaiMattern: добавьте -ncопцию «no clobber» - она заставляет wget игнорировать некоторые загруженные (даже частично) файлы.

— SF.

1

У меня был список изображений, которые мне нужно было загрузить, и это тоже сработало: wget -i list.txt -nc & wget -i list.txt -nc & wget -i list.txt -ncочень уродливо, но эй, это работает. : P

— Джаред

1

Если одно из этих соединений по какой-то причине разорвано, вы получите незавершенные файлы, не затронутые другими соединениями. Этот метод создает проблемы целостности.

— Мухаммед

-bФлаг будет запускать процесс Wget в фоновом режиме, в качестве альтернативы колотить по &контролю работы встроенного. STDOUT будет записан в wget-log, если -o <filename>он не указан. Хорошо для сценариев. Смотрите wget (1) для более подробной информации.

— Пол

21

Еще одна программа, которая может сделать это axel.

axel -n <NUMBER_OF_CONNECTIONS> URL

Для байсового HTTP-аутентификации,

axel -n <NUMBER_OF_CONNECTIONS> "user:password@https://domain.tld/path/file.ext"

Страница справочника Ubuntu .

— Лорд лох
источник

5

Эта программа позволяет неограниченное количество подключений, что очень полезно в некоторых случаях.

— uglide

1

Отличный инструмент. для centos6.xi используется rpm.pbone.net/index.php3/stat/4/idpl/16390122/dir/redhat_el_6/…

— satch_boogie

Аксель не может выполнить базовую аутентификацию HTTP :(

— rustyx

1

Я обычно делаюaxel -n 4 "user:pasword@http://domain.tld/path/file.ext"

— лорд Ло.

Могу ли я использовать аксель для рекурсивной загрузки всей папки?

— Райан Ариф

17

Новый (но еще не выпущенный) инструмент - Mget . У него уже есть много опций, известных от Wget, и поставляется с библиотекой, которая позволяет легко встраивать (рекурсивную) загрузку в ваше собственное приложение.

Чтобы ответить на ваш вопрос:

mget --num-threads=4 [url]

ОБНОВИТЬ

Mget теперь разработан как Wget2 с множеством исправленных ошибок и дополнительными функциями (например, поддержка HTTP / 2).

--num-threadsв настоящее время --max-threads.

— rockdaboot
источник

Хорошая находка. Спасибо!

— user9869932 22.09.16

какие-либо советы о том, как установить wget2 на Mac? Сайт только документирует, как установить его из исходного кода и не может получить автоматическую точку

— Крис

В нашем скрипте TravisCI мы используем homebrew для установки gettext (который включает в себя autopoint). Взгляните на .travis_setup.sh из репозитория wget2.

— rockdaboot

13

Я настоятельно рекомендую использовать httrack.

например: httrack -v -w http://example.com/

Это сделает зеркало с 8 одновременными подключениями по умолчанию. Httrack имеет множество вариантов, где играть. Посмотри.

— Родриго Бустос Л.
источник

@ aaa90210: Было бы здорово, если бы вы кратко объяснили недостатки программы. Комментарий ArturBodera гораздо более информативен.

— Ричард

@ArturBodera Вы можете добавить файл cookies.txt в папку, из которой запускается ваша программа, и она автоматически добавит эти файлы cookie в заголовок загрузки.

— Bertoncelj1

httrack не поддерживает следующие перенаправления

— Chris Hunt

11

Как уже упоминалось в других постерах, я бы посоветовал вам взглянуть на aria2 . Со страницы руководства Ubuntu для версии 1.16.1:

aria2 - это утилита для скачивания файлов. Поддерживаемые протоколы: HTTP (S), FTP, BitTorrent и Metalink. aria2 может загрузить файл из нескольких источников / протоколов и пытается использовать вашу максимальную пропускную способность. Он поддерживает одновременную загрузку файлов с HTTP (S) / FTP и BitTorrent, в то время как данные, загруженные с HTTP (S) / FTP, загружаются в рой BitTorrent. Используя контрольные суммы фрагментов Metalink, aria2 автоматически проверяет фрагменты данных при загрузке файла, такого как BitTorrent.

Вы можете использовать -xфлаг, чтобы указать максимальное количество соединений на сервер (по умолчанию: 1):

aria2c -x 16 [url]

Если один и тот же файл доступен в нескольких местах, вы можете загрузить его со всех. Используйте -jфлаг, чтобы указать максимальное количество параллельных загрузок для каждого статического URI (по умолчанию: 5).

aria2c -j 5 [url] [url2]

Посмотрите на http://aria2.sourceforge.net/ для получения дополнительной информации. Для получения информации об использовании, страница справочника действительно описательна и имеет раздел внизу с примерами использования. Онлайн-версию можно найти по адресу http://aria2.sourceforge.net/manual/en/html/README.html .

— runejuhl
источник

8

Wget не может загрузить несколько соединений, вместо этого вы можете попробовать использовать другую программу, такую как aria2.

— user181677
источник

5

попробуй pcurl

http://sourceforge.net/projects/pcurl/

использует curl вместо wget, загружает в 10 сегментах параллельно.

— громыхание
источник

4

использование

aria2c -x 10 -i websites.txt >/dev/null 2>/dev/null &

в website.txt укажите 1 URL в строке, например:

https://www.example.com/1.mp4
https://www.example.com/2.mp4
https://www.example.com/3.mp4
https://www.example.com/4.mp4
https://www.example.com/5.mp4

— Дэвид Корп
источник

2

Они всегда говорят, что это зависит, но когда дело доходит до зеркалирования веб-сайта, лучшее существует httrack . Это супер быстро и легко работать. Единственный недостаток - это так называемый форум поддержки, но вы можете найти свой путь, используя официальную документацию . Он имеет как GUI, так и интерфейс CLI, и поддерживает куки, просто читайте документы. Это лучшее. (Будьте осторожны с этим инструментом, вы можете загрузить всю сеть на свой жесткий диск).

httrack -c8 [url]

По умолчанию максимальное количество одновременных подключений ограничено 8, чтобы избежать перегрузки сервера

— pouya
источник

2

использовать xargsдля wgetпараллельной работы в нескольких файлах

#!/bin/bash

mywget()
{
    wget "$1"
}

export -f mywget

# run wget in parallel using 8 thread/connection
xargs -P 8 -n 1 -I {} bash -c "mywget '{}'" < list_urls.txt

Параметры Aria2, правильный способ работы с файлом размером менее 20 МБ

aria2c -k 2M -x 10 -s 10 [url]

-k 2M разделить файл на 2 МБ

-kили --min-split-sizeимеет значение по умолчанию 20 МБ, если вы не установите эту опцию и файл меньше 20 МБ, он будет работать только в одном соединении независимо от того, какое значение -xили-s

— ewwink
источник

1

makeможно легко распараллелить (например, make -j 4). Например, вот простой пример, Makefileкоторый я использую для параллельной загрузки файлов с помощью wget:

BASE=http://www.somewhere.com/path/to
FILES=$(shell awk '{printf "%s.ext\n", $$1}' filelist.txt)
LOG=download.log

all: $(FILES)
    echo $(FILES)

%.ext:
    wget -N -a $(LOG) $(BASE)/$@

.PHONY: all
default: all

— Пол Прайс
источник

0

Подумайте об использовании регулярных выражений или FTP-глобинга . Таким образом, вы можете запускать wget несколько раз с разными группами начальных символов имени файла в зависимости от их частоты появления.

Вот, например, как я синхронизирую папку между двумя NAS:

wget --recursive --level 0 --no-host-directories --cut-dirs=2 --no-verbose --timestamping --backups=0 --bind-address=10.0.0.10 --user=<ftp_user> --password=<ftp_password> "ftp://10.0.0.100/foo/bar/[0-9a-hA-H]*" --directory-prefix=/volume1/foo &
wget --recursive --level 0 --no-host-directories --cut-dirs=2 --no-verbose --timestamping --backups=0 --bind-address=10.0.0.11 --user=<ftp_user> --password=<ftp_password> "ftp://10.0.0.100/foo/bar/[!0-9a-hA-H]*" --directory-prefix=/volume1/foo &

Первый wget синхронизирует все файлы / папки, начиная с, 0, 1, 2... F, G, Hа второй поток синхронизирует все остальное.

Это был самый простой способ синхронизации между NAS с одним портом Ethernet 10G (10.0.0.100) и NAS с двумя портами Ethernet 1G (10.0.0.10 и 10.0.0.11). Я связал два потока wget --bind-addressс разными портами Ethernet и назвал их параллельными, поставив &в конце каждой строки. Таким образом я смог скопировать огромные файлы с общей скоростью 2x 100 МБ / с = 200 МБ / с.

— mgutt
источник