Из вашего вопроса я понимаю, что у вас нет опыта работы в области компьютерных наук, поэтому я бы не стал выговаривать с отвратительным звучанием.
Популярные веб-сайты, обрабатывающие чрезвычайно большие объемы данных (или трафик), не являются чем-то новым или уникальным. Обычно нет никакой хитрости с точки зрения массового сжатия (поскольку большинство изображений, загруженных в формате JPEG, уже сильно сжаты, и дальнейшее сжатие часто может привести к потере деталей). То, что входит в это, является некоторой умной архитектурой, большим и большим количеством компьютеров, fast & amp; надежная сеть и, конечно, несколько терабайт (или даже петабайт) дискового пространства. На самом деле, хранение часто является наименьшей из проблем. Память и вычислительная мощность в наши дни довольно недороги.
Что происходит, так это то, что данные часто распределяются (несколько копий) по нескольким компьютерам для обеспечения избыточности и более быстрого поиска, а поиск / поиск данных происходит параллельно. Хранение часто используемых данных ближе к границе сети или пользователей и их обновление на основе использования - вот некоторые из методов.
Некоторые вызывающие ключевые слова, которые часто используются и могут рассматриваться как волшебство:
- Многоуровневое кеширование
- Распределенное хранилище
- Хранилище данных
- NoSQL
- Уменьшение карты
- Sharding данных (в основном в мире SQL)
- Параллельная обработка
- CDN (сети доставки контента)
Как сделать это хорошо, более эффективно, эффективно - это область исследований, а также исследований в области компьютерных наук и компьютерной архитектуры. Используются различные методы, основанные на характере данных, характере / частоте доступа (больше операций записи по сравнению с большим количеством операций чтения), требуемой степени надежности и т. Д.
Отредактировано: Эта картина от Google серверная стойка (с 1999 года) Эпично! Обратите внимание на открытые жесткие диски (3-4 из них) в середине каждого «лотка» сервера (особенно тот, который помечен «g61»).
и полное путешествие запечатлено в этом посте Вот :