Да-с, а я думал, тема мертва.
1) Плохая архивация mp3 или уже сжатых файлов имеет мало чего общего с информацией в файлах. Тому есть два примера: a) попробуйте сжать зашифрованный файл - получится плохо, хотя объем информации тот же; b) пусть
![$X = zip(T)$ $X = zip(T)$](https://dxdy-01.korotkov.co.uk/f/4/6/8/46824967d6f91682c319d3cf9af3d4d082.png)
, тогда
![$rar(zip^{-1}(X)) \ll rar(X)$ $rar(zip^{-1}(X)) \ll rar(X)$](https://dxdy-01.korotkov.co.uk/f/c/8/f/c8f62b702d8dc2b74852ed0502c4c92d82.png)
, хотя количество информации опять же прежнее. Если я правильно понимаю, тут важна еще модель сжимаемых данных. Именно поэтому специализированные алголитмы сжатия данных (например, losslеss JPEG) обгоняют ZIP/RAR как стоячего. У них - специализированная модель, учитывающая двумерную организацию данных. Модели количества информации хороши, когда оно (количество) известно. Сколько информации в "Войне и Мiре"? Зависит от контекста передающего/получающего. И контекст этот всегда присутствует - длина байта, кодировка, и многое другое. Сжатие повторяющегося текста, глядя назад - всего лишь одна из моделей.
2) Интересно, что в свое время разрабатывались, но большого распространения не получили, алгоритмы с предсказыванием (непрочитанных байт). Угадав правильно, нам надо передать только один бит, а то и меньше - количество правильно угаданных бит. Они требовали память мегабайтами(2-16 MB), что представлялось в 80-е весьма непрактичным. А сейчас о них не слышно почему-то. Может потому, что главное массовое распространение формата, а вовсе не степень сжатия.
3) По крайней мере пару лет назад, самым
дешевым и быстрым способом передачи
больших объемов информации в США была ... почта. По крайней мере одна фирма с оффисами в Нью-Йорке и Сан Франциско записывала информацию на винт компьютера и в 6 вечера отправляла системный блок. В 8 утра он уже был готов к работе на другом побережье. (Они пытались отправлять винчестер отдельно, но слишком много мороки с OS. Тогда, по-видимому, внешние винты были мало распространены.)