wget --content-disposition 'https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE48191&format=file'
Загружаемый файл представляет собой tar
архив (двоичный файл), предоставленный динамической ссылкой с веб-сервера. wget
обычно сохраняет файл, используя часть URL-адреса, который вы используете, но в этом случае это просто конечная точка API REST (или что-то подобное), поэтому имя будет работать недружелюбно (оно все равно будет действительным именем и содержимое файла будет таким же).
Однако в этом случае сервер предоставляет заголовок «Content Disposition», содержащий фактическое имя файла, который wget
можно использовать, если вы используете эту --content-disposition
опцию. Эта опция помечена как «экспериментальная» в моем руководстве для wget
.
Кроме того, необходимо процитировать URL , так что оболочка не интерпретировать &
и ?
символы в нем.
Эквивалентная вещь, использующая curl
:
curl -J -O 'https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE48191&format=file'
Или, используя эквивалентные длинные параметры:
curl --remote-header-name --remote-name 'https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE48191&format=file'
После того, как вы скачали файл, вам нужно распаковать его:
tar -xvf GSE48191_RAW.tar
В связи с тем, как был создан этот конкретный архив, это позволит распаковать файлы архива в текущий каталог (поэтому может быть хорошей идеей будет создать новый каталог, переместить туда архив и распаковать его). Файлы в этом архиве являются gzip
сжатыми CEL
файлами.