Действительно, тот факт, что файлы уже сжаты, не является критической проблемой. Дело в том, что сжатие вообще может работать, только если в данных есть какая-то избыточность . Это практически всегда относится к несжатым файлам, однако не всегда очевидно, что такое избыточность. Алгоритмы сжатия общего назначения в основном нацелены на такие вещи, которые очевидны в текстовых файлах: многие слова встречаются не один раз, а множество раз в одинаковой форме, возможно, можно объединять фразы и т. Д. И т. Д. Алгоритмы довольно хороши обобщая это на что-нибудь от списков телефонных номеров в китайском стихе в кодировке ASCII до двоичного машинного кода, но они не могут работать с любыми данными. В частности, медиа-файлы концептуальноаналоговые данные , в шумном цифровом представлении. Это означает, что на самом деле не существует какого-либо вида избыточности текстового файла: некоторые мотивы могут повторяться, но всегда с немного отличающейся конфигурацией шума датчика. Вот почему во всех форматах сжатых изображений / AV в качестве первого шага кодирования используется какое-то хитро выбранное преобразование, обычно основанное на DCT или вейвлетах . Грубо говоря, эти преобразования перемещают части изображения и части шума в разные места, поэтому они могут быть разделены, и при сжатии с потерями вы сохраняете только ту информацию, которая, по вашему мнению, является наиболее «важной», которая не включает шум, в то время как « хорошая информация "имеет много избыточности. (Это не совсем так, но вроде как.)
Если бы компрессоры общего назначения использовали эти преобразования, эффект был бы противоположным: большая часть цифровой информации фактически была бы ошибочно классифицирована как некоторый шум, потому что ей не хватает «гладкой» структуры, которую вы можете найти в аналоговых сигналах. И после сжатия видео с потерями, очевидно, больше не будет найдено ни аналоговой гладкости, ни цифрового повторения (если бы это было, кодеки использовали бы другой этап bzip или что-то другое!)