0. Закон Ципфа это статистический феномен, поскольку наблюдался статистически. Верно, Вас беспокоит вопрос, не является ли он статистическим артефактом, в смысле продуктом, порождённым лишь обработкой данных, подобно множеству экономических циклов разнообразной длины, отысканных в 1860-е-1930-е годы экономистами, пока Слуцкий и Юл не показали, что сочетание скользящего среднего и конечных разностей, стандартных методов для удаления случайной составляющей и непериодического тренда соответственно, работает, как полосный фильтр, способный из белого шума построить красивую периодическую кривую?
1. Некоторое основание для этого есть. При установлении закона Ципфа, связи между рангом слова и его частотой встречаемости, сперва строим этот ранг, как раз исходя из частоты, то есть зависимость частоты от ранга уже по построению будет монотонно убывающей к нулю функцией. Так что возможность её аппроксимировать степенной с отрицательным показателем не столь уж потрясающа. Хотя можно выбирать между степенной, экспонентой и, скажем, 1-Ф(x), где Ф(x) - функция нормального распределения. Причём для случайной последовательности (в которой символ окончания слова появляется случайно с вероятностью p) экспонента кажется как-то вероятнее - поскольку экспоненциально убывает вероятность слова длиной L
2. Однако это рассуждение не учитывает того, что коротких слов в такой модели больше, а это влияет на ранг слов. В модели Ли Вэнтяня принимается, что алфавит состоит из (M+1) символов, из коих M - обычные буквы, и одна - разделитель между словами, и они выбираются случайно и равновероятно. Тогда для частоты слова в зависимости от его ранга выполняется неравенство, которое объясняет зависимость
, причём постоянные C, B и
зависят лишь от M. Подставляя M=26, получаем значения, близкие к параметрам закона Ципфа для английского.
3. Эмпирического значения закона для лингвистики (особенно для практики, типа определения потребных объёмов словарей и т.п.) это не отменяет, но особых тайн, видимо, за ним не кроется.
4. Ссылка на работу Ли Вэнтяня
http://www.nslij-genetics.org/wli/pub/ieee92_pre.pdf