Большинство ответов, за исключением пользователей slayton, rauchen, Paul Amstrong, совершенно неверны, если речь идет о чистом хранилище один на один без методов сжатия.
Геном человека с 3 Гб нуклеотидов соответствует 3 Гб байтов, а не ~ 750 Мб. Сконструированный «гаплоидный» геном согласно NCBI в настоящее время имеет размер 3436687kb или 3,436687 ГБ. Проверьте здесь сами.
Гаплоид = одна копия хромосомы. Диплоид = две версии гаплоида. У человека 22 уникальных хромосомы x 2 = 44. 23-я мужская хромосома - это X, Y, всего 46. Суки 23 хром. есть X, X и, таким образом, всего 46.
Для мужчин это будет 23 + 1 хромосома в хранилище данных на жестком диске, а для женщин - 23 хромосомы, что объясняет небольшие различия, которые время от времени упоминаются в ответах. X хром. от кобелей равен X хром. от самок.
Таким образом, загрузка генома (23 + 1) в память осуществляется частями через BLAST с использованием построенных баз данных из fasta-файлов. Независимо от того, заархивированы ли версии или нет, нуклеотиды практически не сжимаются. Раньше одним из используемых приемов была замена тандемных повторов (GACGACGAC с более коротким кодированием, например, «3GAC»; 9 - 4 байта). Причина заключалась в экономии места на жестком диске (площадь пластин HDDD 500–2 ГБ с 7.200 об / мин и разъемами SCSI). Для поиска последовательности это также было сделано с запросом.
Если для хранения «кодированных нуклеотидов» будет 2 бита на букву, то для байта вы получите:
А = 00
С = 01
G = 10
Т = 11
Только так вы полностью выиграете от позиций 1,2,3,4,5,6,7 и 8 для 1 байта кодирования. Например, комбинация 00.01.10.11 (как байт 00011011
) будет соответствовать «ACTG» (и отображаться в текстовом файле как нераспознаваемый символ). Одно только это отвечает за четырехкратное уменьшение размера файла, как мы видим в других ответах. Таким образом, размер 3,4 ГБ будет уменьшен до 0,85917175 ГБ ... ~ 860 МБ, включая требуемую на тот момент программу преобразования (23–4 МБ).
Но ... в биологии вы хотите иметь возможность что-то читать, поэтому сжатие с помощью gzip более чем достаточно. Разархивированный, вы все еще можете его прочитать. Если использовалось это байтовое заполнение, читать данные становится труднее. Вот почему fasta-файлы на самом деле являются текстовыми файлами.