Я аспирант геофизики и работаю с большими объемами графических данных (сотни ГБ, десятки тысяч файлов). Я хорошо знаю svn
и git
прихожу оценивать историю проекта в сочетании с возможностью легко работать вместе и иметь защиту от повреждения диска. Я нахожу git
также чрезвычайно полезным для создания последовательных резервных копий, но я знаю, что git не может эффективно обрабатывать большие объемы двоичных данных.
Во время обучения в магистратуре я работал над наборами данных одинакового размера (также изображениями), и у меня было много проблем с отслеживанием разных версий на разных серверах / устройствах. Распределение 100 ГБ по сети действительно не весело, и стоило мне много времени и усилий.
Я знаю, что у других в науке, похоже, есть похожие проблемы, но я не смог найти хорошего решения.
Я хочу использовать хранилища моего института, поэтому мне нужно что-то, что может использовать «тупой» сервер. Я также хотел бы иметь дополнительную резервную копию на переносном жестком диске, потому что я хотел бы избежать передачи сотен ГБ по сети, где это возможно. Итак, мне нужен инструмент, который может обрабатывать более одного удаленного местоположения.
Наконец, мне действительно нужно что-то, что может использовать другой исследователь, так что это не должно быть очень простым, но должно быть доступно для изучения за несколько часов.
Я оценил множество различных решений, но ни одно из них не отвечает требованиям:
- SVN несколько неэффективен и нуждается в умном сервере
- hg bigfile / largefile может использовать только один пульт
- git bigfile / media также может использовать только один пульт, но также не очень эффективен
- на чердаке , похоже, нет лога или различий
- bup выглядит действительно хорошо, но для работы нужен «умный» сервер
Я пытался git-annex
, который делает все, что мне нужно, чтобы сделать (и многое другое), но это очень сложно использовать и не очень хорошо документировано. Я использовал это в течение нескольких дней и не мог обдумать это, таким образом, я сомневаюсь, что любой другой сотрудник был бы заинтересован.
Как исследователи работают с большими наборами данных, и что используют другие исследовательские группы?
Чтобы было ясно, меня в первую очередь интересует, как другие исследователи справляются с этой ситуацией, а не только с этим конкретным набором данных. Мне кажется, что почти у всех должна быть эта проблема, но я не знаю никого, кто бы ее решил. Должен ли я просто сохранить резервную копию исходных данных и забыть обо всех этих элементах управления версиями? Это то, что все остальные делают?