Передача 10 ТБ файлов из США в датацентр Великобритании


96

Я перевожу свой сервер из США в Великобританию из одного центра обработки данных в другой. Мой хозяин сказал, что я должен достичь 11 мегабайт в секунду.

Операционная система Windows Server 2008 на обоих концах.

Мой средний размер файла составляет около 100 МБ, а данные разбиты на пять дисков по 2 ТБ.

Каков будет рекомендуемый способ передачи этих файлов?

  • FTP
  • SMB
  • Rsync / Robocopy
  • Другие?

Меня не слишком беспокоит безопасность, так как в любом случае это общедоступные файлы, но я просто хочу решение, которое может увеличить скорость передачи 11 МБ / с, чтобы минимизировать общее время передачи.


19
11 МБ / с или 11 МБ / с?
Вим


9
Вы должны предоставить детали. Как вы думаете, сколько почтовых голубей потребуется? Показать свою работу.
Эвик Джеймс

18
@ Евик европейский или африканский?
Вим

8
Кроме того, Wolfram Alpha является наиболее удобным способом вычисления «10 ТБ при 11 МБ / с». wolframalpha.com/input/?i=10+TB+at+11MB%2Fs
рыбу фугу

Ответы:


173

Вместо этого отправляйте жесткие диски через океан.

На скорости 11 Мбит / с с полной загрузкой вам потребуется всего лишь 90 дней для передачи 10 ТБ.


11 Мбит / с = 1,375 МБ / с = 116,015 ГБ / день .

10240 ГБ / 116,015 ГБ / день = ~ 88,3 дня .


42
+1 для Sneakernet . Кроме того, вы забыли об издержках TCP / IP. Это больше похоже на ~ 100 дней в идеальных условиях.
Крис С

43
Один мудрец однажды сказал: «Никогда не стоит недооценивать пропускную способность универсала, полного лент, несущихся по шоссе». Это уравнение очень верно и существенно не изменяется при смене универсала на лодку. ( bpfh.net/sysadmin/never-underestimate-bandwidth.html )
Роб Моир,

5
Лучше отправлять ленты или диски blueray, чем диски. Если вы едете с дисками, убедитесь, что оригиналы хранятся в безопасности и доступны на всякий случай. Я бы сам пошел за дисками (если только у меня не было дисков Ultrium 4), потому что 10 ТБ = 410 однослойных дисков blueray!
Аллен

9
Просто понял, что я набрал 11 Мбит / с, однако я имел в виду 11 Мбит / с. Я полагаю, что это имеет большое значение, мои расчеты примерно 11-14 дней ... это правильно?
Пол Хинетт

18
по-прежнему полагаю, что отправка человека с резервной копией 10 ТБ, пока официальный диск все еще работает, после завершения настройки можно запустить rsync, чтобы обновить новый сервер для любых изменений. Вы бы включили свою машину примерно за день.
Лоик Фор-Лакруа

26

Я бы сказал rsync, при скорости 11 МБ / с вы будете смотреть 10-14 дней, и даже если вас прервут, rsync легко запустится с того места, где он остановился в прошлый раз.

На скорости 11 Мбит / с я отправляю жесткие диски, как указано выше :)


1
Ваша оценка очень существенно отличается от того, что опубликовали другие (и я не знаю, кто прав). Можете ли вы предоставить свою методологию для достижения этих цифр?
Джон Гарденье

9
Разница возникает из-за того, что OP искажал скорость 11 Мбит / с, тогда как на самом деле он имел в виду 11 Мбит / с, что в 8 раз быстрее. Кстати, перезапуск 10 ТБ rsync в случае прерывания, вероятно, займет некоторое время, не так ли? Часы или дольше?
Фрэнк Фармер

@FrankFarmer: я не буду беспокоиться о перезапуске rsync; Я храню внешнюю копию ~ 20 ТБ по беспроводной линии 30 Мбит / с, и перезапуск происходит в диапазоне секунд. первоначальная копия заняла пару недель, но ночное обновление обычно занимает пару часов.
Хавьер

@FrankFarmer - rsync, похоже, очень хорошо масштабируется. У меня ~ 2 ТБ по сельской линии ADSL1, которая была инициализирована с помощью sneakernet, но rsync ~ 5 минут каждую ночь, если ничего не изменилось.
Флекс

6
Время перезапуска rsync масштабируется с количеством файлов (в основном по statвремени, по моему опыту), а не с общими данными. Я не ожидал бы значительного ожидания (максимум несколько минут). Хотя мой опыт работы с вершинами rsync составляет чуть менее 5 ТБ.
Дероберт

15

Rsync конечно.

По крайней мере, вы можете продолжить в любое время после перерыва, и это безболезненно.


7
3+ месяца для копирования при 100% использовании. Извините, но это ужасный способ передачи такого количества данных.
Крис С

Я должен согласиться с @ChrisS, использование rsyncтолько для копирования больших файлов неэффективно. Для моего материала я использовал tarболее netcatили sshдля первоначального перевода. Это намного быстрее и начинает передавать сразу, в то время как rsyncсначала будут сканироваться все файлы, что требует времени. Если это прервано, вы все равно можете использовать его rsyncпозже. Фактически, я делаю это иногда после tarтого, как все права доступа, файлы сокетов и т. Д. Правильные.
Мартин Шаррер

1
После того, как OP исправил, что у него ~ 100 Мб соединения, а не 11 Мб, rsync имеет гораздо больше смысла. +1 за первое упоминание об этом.
Крис С

12

Никогда не стоит недооценивать пропускную способность универсала, полного лент

- Трад.

В вашем случае диски или ленты высылаются курьером, но принцип все же действует. Если вы не беспокоитесь о задержке, это будет значительно дешевле, чем пропускная способность сети, для передачи 10 ТБ данных в любой разумный промежуток времени.


Jeff Atwood побежал номера в одном из своих старых постов Coding Horror .. codinghorror.com/blog/2007/02/the-economics-of-bandwidth.html
tardate

10

Вы должны использовать rsync. Он будет сжимать данные и дублировать их перед отправкой. Он также может возобновить частичные переводы, что очень важно для любых крупных переводов.

Вероятно, это не передает 10 ТБ; если это журналы и текст и тому подобное, он вполне может быть меньше 1 ТБ; возможно намного ниже 1 ТБ.

Существуют инструменты, которые лучше справляются со сжатием, чем rsync, и, вероятно, находят больше совпадений. Вы могли бы использовать lrzipи т. Д.

Существуют определенные типы данных, которые плохо сжимаются и не содержат буквальных дубликатов - например, видео и другие медиафайлы. В этих случаях FTP и rsync делают одно и то же.


3
RSync дедуплицирует данные? Я думаю, что это происходит только на уровне файлов, а это означает, что дедупликация в этом случае бесполезна.
devicenull

6

Я знаю, что это уже принято, но рассматривали ли вы возможность доставки ваших дисков в центр обработки данных / провайдер / хост, где вы можете получить большую пропускную способность? Вероятно, это будет стоить вам денег, но копирование 10240Gb на резервные диски и отправка также будет стоить и времени, и денег (в 2 раза больше денег).

Также вы будете уверены, что ваши диски не ломаются при транспортировке.


Чем этот ответ отличается от принятого ответа?
Крис С

2
@Chris Этот ответ предлагает перенести диски в большую трубу на том же континенте.
Алекс Жасмин

5

11Мб? Это довольно ограниченное у вас здесь. В вашей ситуации я бы просто:

  • Клонировать данные
  • Сожмите это
  • Аренда серверов на обоих концах с пропускной способностью как минимум в 10 раз больше (в тех же дата-центрах или на вашем конце в ближайшем к вам дата-центре).
  • Передача файлов
  • Примените данные к новому серверу.

Если у вас действительно нет решения по увеличению пропускной способности ... Тогда доставка физического диска будет намного быстрее.

Из моего мучительного опыта жесткие диски имеют тенденцию ломаться в почте ... USB-накопители являются лучшим решением для частой передачи данных. В вашем случае это потребует нескольких из них :) Так что отправьте 2 копии ваших данных на несколько жестких дисков.

Учитывая объем имеющихся у вас данных, вы также можете отправлять диски из массива RAID 5 или RAID 6, если на другой стороне имеется такое же аппаратное / программное обеспечение для подключения дисков. Но в этом случае не забудьте пометить порядок ваших дисков. и их серийные номера, поэтому при перенастройке они не перепутаны.


1
извините, скорость 11 Мбит / с была опечаткой, это 11 Мбит / с ... я упоминал в одном из приведенных выше комментариев.
Пол Хинетт

4

Хотя в этом случае я должен согласиться с ответом «поставьте его с помощью жестких дисков», вот решение для копирования, которое я использую, когда мне приходится копировать большое количество файлов в первый раз:

Хотя rsyncхорошо синхронизировать два хранилища данных, это вносит немало ненужных накладных расходов на начальную передачу. Я подумал, что самый быстрый способ - tarэто перебросить netcat. На сайте получателя вы также можете использовать netcatв режиме прослушивания, который передает входящие данные для извлечения tar. Преимущество заключается в том, что tarотправка начинается немедленно и netcatотправляется в виде обычного потока TCP без дополнительных затрат на протокол более высокого уровня. Это должно быть так быстро, как только может. Однако не просто возможно возобновить прерванную передачу в последней позиции.

Также легко можно сжать данные для передачи, используя правильные tarопции или добавить инструмент сжатия в трубы. Обратите внимание, что netcatотправляет дату в незашифрованном виде. В тех случаях, когда это невозможно, sshвместо этого можно использовать зашифрованное соединение ( tar <options> | ssh <target> -c 'tar -x <options>').

Если все данные переданы, rsyncможно использовать их для обеспечения синхронизации всех файлов, которые были обновлены за это время. Кроме того, IIRC tarне создает сокеты, которые в противном случае будут потеряны, но в любом случае они не используются для данных центра данных.


Недостатком является то, что он не терпит вмешательств
Джоэл Коэль

3

Вы рассматривали IPoAC ?

Один голубь может переносить десятки гигабайт данных примерно за час, что в среднем по полосе пропускания очень выгодно по сравнению с современными стандартами ADSL даже при учете потерянных дисков.


21
Голуби будут страдать от потери сигнала на расстоянии, описанном ОП.
Рой Тинкер

@RoyTinker Очищенный IPoAC должен быть реализован с использованием процесса управления окнами.
Джеймс Барнетт

3

Опять же, первое предложение заключается в отправке дисков.

Второе предложение - использовать rsync для rsyncd, а не через SSH. Я перепробовал много вещей, и это обычно самый быстрый. Не забудьте включить сжатие. Также обратите внимание на увеличение или уменьшение размера буфера rsync, чтобы получить оптимальную скорость передачи. Это также может помочь увеличить размер MTU . Это помогает, только если маршрутизаторы на маршруте не фрагментируют ваши пакеты. Есть способы определить, если они делают.

К сожалению, нет настройки, которая всегда лучше. Вам придется экспериментировать, чтобы выяснить, что лучше всего работает в вашей ситуации.


2

Вы упомянули серверы под управлением Windows 2008. Подойдет ли Microsoft DFS ? В нижнем конце есть некоторая магия, которая пытается получить как можно большую пропускную способность соединения, а также имеет сжатие и дедупликацию (IIRC).

Имейте в виду, жесткие диски, DVD или BluRays будут быстрее ... Мой расчет составляет 11 дней при полных 11 МБ / с ...


1

Вы можете использовать торрент для этого.

Создайте приватный торрент на одном конце и используйте клиент на другом.

Несмотря на наличие шифрования, вы должны проверить свои требования.


1
Отношение 1 к 1 торрент не лучше, чем передача файлов 1: 1. Если между двумя площадками имеется ограниченная труба, вам нужно несколько сеялок на разных трубах, в идеале географически распределенных.
Джереми

@ Джереми - это не лучше и не хуже с точки зрения пропускной способности. Это может быть лучше с точки зрения надежности (легкая пауза / возобновление), что для xfer этого размера может быть важным
Джоэл Коэль
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.