Закон Ципфа - верен для для любых текстов или осмысленных?

longstreet · 10.09.2012, 22:34

Цитата:

Закон Ципфа - эмпирическая закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота $n$ -го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру $n$ .

На Вики сказано и следующее:

Цитата:

Американский биолог Ли Вэньтянь попытался опровергнуть закон Ципфа, строго доказав, что случайная последовательность символов также подчиняется закону Ципфа. Автор делает гипотетический вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, не имеющим отношения к семантике текста.

Так я не понял, верен ли закон Ципфа в смысле как закон распределения слов естественного языка, или нет?

Munin · 11.09.2012, 01:08

Раз закономерность эмпирическая, то для естественного языка он и получен, и верен. Тем более что слово "приблизительно" оставляет простор для интерпретаций.

longstreet · 11.09.2012, 02:53

Munin в сообщении #617233 писал(а):

Раз закономерность эмпирическая, то для естественного языка он и получен, и верен.

Так ведь вроде (если верить Вики) тот американец строго доказал, что и случайная последовательность символов также подчиняется закону Ципфа.

-- 11.09.2012, 02:57 --

Ведь вроде этот закон позиционируется как справедливый для слов именно естественных языков, а не вообще знаковых систем.

Munin · 11.09.2012, 03:34

longstreet в сообщении #617245 писал(а):

Так ведь вроде (если верить Вики) тот американец строго доказал, что и случайная последовательность символов также подчиняется закону Ципфа.

Боюсь, это верно только для некоторых случайных распределений, и вообще "если верить Вики" звучит смешно.

А естественные языки, как легко заметить, не случайные последовательности символов.

longstreet в сообщении #617245 писал(а):

Ведь вроде этот закон позиционируется как справедливый для слов именно естественных языков, а не вообще знаковых систем.

Взяли какой-то язык, например, английский. Посчитали. Оказалось. Взяли другой. Оказалось такое же. И так далее. Вот и всё "позиционируется". Лингвисты не дураки, и не стремятся обобщать свои законы на что угодно, а работают только с тем, с чем работают - с естественными языками.

longstreet · 11.09.2012, 10:32

Я понимаю, что для большинства естественных языков закон Ципфа более-менее справедлив. Но если это верно почти-для-всего-угодно, то это уже не такой интересный закон...

-- 11.09.2012, 10:34 --

Закон: совы состоят из атомов.
Ну ведь не круто, не?

Someone · 11.09.2012, 12:59

longstreet в сообщении #617200 писал(а):

Американский биолог Ли Вэньтянь попытался опровергнуть закон Ципфа, строго доказав, что случайная последовательность символов также подчиняется закону Ципфа. Автор делает гипотетический вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, не имеющим отношения к семантике текста.

Это бред. У случайной последовательности символов будет тот закон распределения, какой зададите при её генерации. Хотите - равномерный, хотите - любой другой.

longstreet · 11.09.2012, 13:01

Действительно... Спасибо!

Евгений Машеров · 13.09.2012, 11:36

0. Закон Ципфа это статистический феномен, поскольку наблюдался статистически. Верно, Вас беспокоит вопрос, не является ли он статистическим артефактом, в смысле продуктом, порождённым лишь обработкой данных, подобно множеству экономических циклов разнообразной длины, отысканных в 1860-е-1930-е годы экономистами, пока Слуцкий и Юл не показали, что сочетание скользящего среднего и конечных разностей, стандартных методов для удаления случайной составляющей и непериодического тренда соответственно, работает, как полосный фильтр, способный из белого шума построить красивую периодическую кривую?
1. Некоторое основание для этого есть. При установлении закона Ципфа, связи между рангом слова и его частотой встречаемости, сперва строим этот ранг, как раз исходя из частоты, то есть зависимость частоты от ранга уже по построению будет монотонно убывающей к нулю функцией. Так что возможность её аппроксимировать степенной с отрицательным показателем не столь уж потрясающа. Хотя можно выбирать между степенной, экспонентой и, скажем, 1-Ф(x), где Ф(x) - функция нормального распределения. Причём для случайной последовательности (в которой символ окончания слова появляется случайно с вероятностью p) экспонента кажется как-то вероятнее - поскольку экспоненциально убывает вероятность слова длиной L $P(L)=Kp(1-p)^L$
2. Однако это рассуждение не учитывает того, что коротких слов в такой модели больше, а это влияет на ранг слов. В модели Ли Вэнтяня принимается, что алфавит состоит из (M+1) символов, из коих M - обычные буквы, и одна - разделитель между словами, и они выбираются случайно и равновероятно. Тогда для частоты слова в зависимости от его ранга выполняется неравенство, которое объясняет зависимость $P(r)=\frac C {(r+B)^\alpha}$ , причём постоянные C, B и $\alpha$ зависят лишь от M. Подставляя M=26, получаем значения, близкие к параметрам закона Ципфа для английского.
3. Эмпирического значения закона для лингвистики (особенно для практики, типа определения потребных объёмов словарей и т.п.) это не отменяет, но особых тайн, видимо, за ним не кроется.
4. Ссылка на работу Ли Вэнтяня
http://www.nslij-genetics.org/wli/pub/ieee92_pre.pdf

Munin · 13.09.2012, 19:33

Всё-таки, что статистически слова естественного языка ведут себя близко к случайным последовательностям букв, наверное, нетривиальный факт :-)

Евгений Машеров · 13.09.2012, 22:41

С другой стороны, речь это средство передачи информации, а для него такое свойство довольно естественно.

Munin · 13.09.2012, 23:27

Непонятно, почему "естественно". Будь оно эволюционно оттачиваемо в сторону уплонения информационной плотности, это ещё можно было бы понять. Но действует и противоположная тенденция: снижение плотности информации для повышения помехоустойчивости.

atlakatl · 03.09.2015, 04:39

https://ru.wikipedia.org/wiki/Закон_Ципфа

Цитата:

... случайная последовательность символов также подчиняется закону Ципфа... В общих чертах доказательство этой теории состоит в следующем. Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом n в той же пропорции, в какой растёт при этом номер этого слова в частотном списке. Потому произведение номера слова на его частоту есть константа.

Интересно, почему это бредовое утверждение никем не оспаривается? И статья в Википедии так долго остаётся в этом состоянии?
Иными словами, утверждается, что в случайной последовательности цифр $0$ и $1$ одна из цифр будет встречаться в 2 раза чаще другой.

grizzly · 03.09.2015, 08:19

Евгений Машеров в сообщении #618158 писал(а):

4. Ссылка на работу Ли Вэнтяня
...

Эта тема обсуждалась лет 5 тому на форуме и ссылка там эта тоже была. Последний раз я заходил по этой ссылке в мае -- она ещё работала. Сейчас "404 -- Not found" :-(

Теперь нужно искать статью на диске. Постоянно нужно тратить время на структурирование ссылок (потому что ими пользоваться удобнее) и структурирование той же информации в скачанном виде. До последнего руки пока не доходят.

atlakatl
И теперь почти все, считающие Вики помойкой, будут Вам поддакивать. А зачем разбираться, кто бредит, если утверждение эмоционально приятно.

-- 03.09.2015, 08:30 --

Хм.. только сейчас заметил, что это atlakatl ради своей ерунды поднял трёхлетней давности тему.

prof.uskov · 03.09.2015, 09:49

atlakatl в сообщении #1050052 писал(а):

https://ru.wikipedia.org/wiki/Закон_Ципфа

Цитата:

... случайная последовательность символов также подчиняется закону Ципфа... В общих чертах доказательство этой теории состоит в следующем. Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом n в той же пропорции, в какой растёт при этом номер этого слова в частотном списке. Потому произведение номера слова на его частоту есть константа.

Интересно, почему это бредовое утверждение никем не оспаривается? И статья в Википедии так долго остаётся в этом состоянии?
Иными словами, утверждается, что в случайной последовательности цифр $0$ и $1$ одна из цифр будет встречаться в 2 раза чаще другой.

А кто мешает Вам самому внести в статью в Вики соответствующие изменения?

grizzly · 03.09.2015, 10:04

prof.uskov в сообщении #1050072 писал(а):

А кто мешает Вам самому внести в статью в Вики соответствующие изменения?

Либо Вы не понимаете, что atlakatl заблуждается (точнее, просто не в теме), либо это подстрекательство к вики-вандализму. Вот такая бинарная логика.

Научный форум dxdy

Закон Ципфа - верен для для любых текстов или осмысленных?