2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение10.09.2012, 22:34 


28/11/11
2884
Цитата:
Закон Ципфа - эмпирическая закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота $n$-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру $n$.

На Вики сказано и следующее:
Цитата:
Американский биолог Ли Вэньтянь попытался опровергнуть закон Ципфа, строго доказав, что случайная последовательность символов также подчиняется закону Ципфа. Автор делает гипотетический вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, не имеющим отношения к семантике текста.


Так я не понял, верен ли закон Ципфа в смысле как закон распределения слов естественного языка, или нет?

 Профиль  
                  
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение11.09.2012, 01:08 
Заслуженный участник
Аватара пользователя


30/01/06
72407
Раз закономерность эмпирическая, то для естественного языка он и получен, и верен. Тем более что слово "приблизительно" оставляет простор для интерпретаций.

 Профиль  
                  
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение11.09.2012, 02:53 


28/11/11
2884
Munin в сообщении #617233 писал(а):
Раз закономерность эмпирическая, то для естественного языка он и получен, и верен.

Так ведь вроде (если верить Вики) тот американец строго доказал, что и случайная последовательность символов также подчиняется закону Ципфа.

-- 11.09.2012, 02:57 --

Ведь вроде этот закон позиционируется как справедливый для слов именно естественных языков, а не вообще знаковых систем.

 Профиль  
                  
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение11.09.2012, 03:34 
Заслуженный участник
Аватара пользователя


30/01/06
72407
longstreet в сообщении #617245 писал(а):
Так ведь вроде (если верить Вики) тот американец строго доказал, что и случайная последовательность символов также подчиняется закону Ципфа.

Боюсь, это верно только для некоторых случайных распределений, и вообще "если верить Вики" звучит смешно.

А естественные языки, как легко заметить, не случайные последовательности символов.

longstreet в сообщении #617245 писал(а):
Ведь вроде этот закон позиционируется как справедливый для слов именно естественных языков, а не вообще знаковых систем.

Взяли какой-то язык, например, английский. Посчитали. Оказалось. Взяли другой. Оказалось такое же. И так далее. Вот и всё "позиционируется". Лингвисты не дураки, и не стремятся обобщать свои законы на что угодно, а работают только с тем, с чем работают - с естественными языками.

 Профиль  
                  
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение11.09.2012, 10:32 


28/11/11
2884
Я понимаю, что для большинства естественных языков закон Ципфа более-менее справедлив. Но если это верно почти-для-всего-угодно, то это уже не такой интересный закон...

-- 11.09.2012, 10:34 --

Закон: совы состоят из атомов.
Ну ведь не круто, не?

 Профиль  
                  
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение11.09.2012, 12:59 
Заслуженный участник
Аватара пользователя


23/07/05
17976
Москва
longstreet в сообщении #617200 писал(а):
Американский биолог Ли Вэньтянь попытался опровергнуть закон Ципфа, строго доказав, что случайная последовательность символов также подчиняется закону Ципфа. Автор делает гипотетический вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, не имеющим отношения к семантике текста.
Это бред. У случайной последовательности символов будет тот закон распределения, какой зададите при её генерации. Хотите - равномерный, хотите - любой другой.

 Профиль  
                  
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение11.09.2012, 13:01 


28/11/11
2884
Действительно... Спасибо!

 Профиль  
                  
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение13.09.2012, 11:36 
Заслуженный участник
Аватара пользователя


11/03/08
9910
Москва
0. Закон Ципфа это статистический феномен, поскольку наблюдался статистически. Верно, Вас беспокоит вопрос, не является ли он статистическим артефактом, в смысле продуктом, порождённым лишь обработкой данных, подобно множеству экономических циклов разнообразной длины, отысканных в 1860-е-1930-е годы экономистами, пока Слуцкий и Юл не показали, что сочетание скользящего среднего и конечных разностей, стандартных методов для удаления случайной составляющей и непериодического тренда соответственно, работает, как полосный фильтр, способный из белого шума построить красивую периодическую кривую?
1. Некоторое основание для этого есть. При установлении закона Ципфа, связи между рангом слова и его частотой встречаемости, сперва строим этот ранг, как раз исходя из частоты, то есть зависимость частоты от ранга уже по построению будет монотонно убывающей к нулю функцией. Так что возможность её аппроксимировать степенной с отрицательным показателем не столь уж потрясающа. Хотя можно выбирать между степенной, экспонентой и, скажем, 1-Ф(x), где Ф(x) - функция нормального распределения. Причём для случайной последовательности (в которой символ окончания слова появляется случайно с вероятностью p) экспонента кажется как-то вероятнее - поскольку экспоненциально убывает вероятность слова длиной L $P(L)=Kp(1-p)^L$
2. Однако это рассуждение не учитывает того, что коротких слов в такой модели больше, а это влияет на ранг слов. В модели Ли Вэнтяня принимается, что алфавит состоит из (M+1) символов, из коих M - обычные буквы, и одна - разделитель между словами, и они выбираются случайно и равновероятно. Тогда для частоты слова в зависимости от его ранга выполняется неравенство, которое объясняет зависимость $P(r)=\frac C {(r+B)^\alpha}$, причём постоянные C, B и $\alpha$ зависят лишь от M. Подставляя M=26, получаем значения, близкие к параметрам закона Ципфа для английского.
3. Эмпирического значения закона для лингвистики (особенно для практики, типа определения потребных объёмов словарей и т.п.) это не отменяет, но особых тайн, видимо, за ним не кроется.
4. Ссылка на работу Ли Вэнтяня
http://www.nslij-genetics.org/wli/pub/ieee92_pre.pdf

 Профиль  
                  
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение13.09.2012, 19:33 
Заслуженный участник
Аватара пользователя


30/01/06
72407
Всё-таки, что статистически слова естественного языка ведут себя близко к случайным последовательностям букв, наверное, нетривиальный факт :-)

 Профиль  
                  
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение13.09.2012, 22:41 
Заслуженный участник
Аватара пользователя


11/03/08
9910
Москва
С другой стороны, речь это средство передачи информации, а для него такое свойство довольно естественно.

 Профиль  
                  
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение13.09.2012, 23:27 
Заслуженный участник
Аватара пользователя


30/01/06
72407
Непонятно, почему "естественно". Будь оно эволюционно оттачиваемо в сторону уплонения информационной плотности, это ещё можно было бы понять. Но действует и противоположная тенденция: снижение плотности информации для повышения помехоустойчивости.

 Профиль  
                  
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение03.09.2015, 04:39 
Аватара пользователя


21/09/12

1871
https://ru.wikipedia.org/wiki/Закон_Ципфа
Цитата:
... случайная последовательность символов также подчиняется закону Ципфа... В общих чертах доказательство этой теории состоит в следующем. Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом n в той же пропорции, в какой растёт при этом номер этого слова в частотном списке. Потому произведение номера слова на его частоту есть константа.

Интересно, почему это бредовое утверждение никем не оспаривается? И статья в Википедии так долго остаётся в этом состоянии?
Иными словами, утверждается, что в случайной последовательности цифр $0$ и $1$ одна из цифр будет встречаться в 2 раза чаще другой.

 Профиль  
                  
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение03.09.2015, 08:19 
Заслуженный участник
Аватара пользователя


09/09/14
6328
Евгений Машеров в сообщении #618158 писал(а):
4. Ссылка на работу Ли Вэнтяня
...

Эта тема обсуждалась лет 5 тому на форуме и ссылка там эта тоже была. Последний раз я заходил по этой ссылке в мае -- она ещё работала. Сейчас "404 -- Not found" :-(
Теперь нужно искать статью на диске. Постоянно нужно тратить время на структурирование ссылок (потому что ими пользоваться удобнее) и структурирование той же информации в скачанном виде. До последнего руки пока не доходят.

atlakatl
И теперь почти все, считающие Вики помойкой, будут Вам поддакивать. А зачем разбираться, кто бредит, если утверждение эмоционально приятно.

-- 03.09.2015, 08:30 --

Хм.. только сейчас заметил, что это atlakatl ради своей ерунды поднял трёхлетней давности тему.

 Профиль  
                  
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение03.09.2015, 09:49 
Аватара пользователя


12/01/14
1127
atlakatl в сообщении #1050052 писал(а):
https://ru.wikipedia.org/wiki/Закон_Ципфа
Цитата:
... случайная последовательность символов также подчиняется закону Ципфа... В общих чертах доказательство этой теории состоит в следующем. Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом n в той же пропорции, в какой растёт при этом номер этого слова в частотном списке. Потому произведение номера слова на его частоту есть константа.

Интересно, почему это бредовое утверждение никем не оспаривается? И статья в Википедии так долго остаётся в этом состоянии?
Иными словами, утверждается, что в случайной последовательности цифр $0$ и $1$ одна из цифр будет встречаться в 2 раза чаще другой.

А кто мешает Вам самому внести в статью в Вики соответствующие изменения?

 Профиль  
                  
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение03.09.2015, 10:04 
Заслуженный участник
Аватара пользователя


09/09/14
6328
prof.uskov в сообщении #1050072 писал(а):
А кто мешает Вам самому внести в статью в Вики соответствующие изменения?

Либо Вы не понимаете, что atlakatl заблуждается (точнее, просто не в теме), либо это подстрекательство к вики-вандализму. Вот такая бинарная логика.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 28 ]  На страницу 1, 2  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group