2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу 1, 2  След.
 
 Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение10.09.2012, 22:34 
Цитата:
Закон Ципфа - эмпирическая закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота $n$-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру $n$.

На Вики сказано и следующее:
Цитата:
Американский биолог Ли Вэньтянь попытался опровергнуть закон Ципфа, строго доказав, что случайная последовательность символов также подчиняется закону Ципфа. Автор делает гипотетический вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, не имеющим отношения к семантике текста.


Так я не понял, верен ли закон Ципфа в смысле как закон распределения слов естественного языка, или нет?

 
 
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение11.09.2012, 01:08 
Аватара пользователя
Раз закономерность эмпирическая, то для естественного языка он и получен, и верен. Тем более что слово "приблизительно" оставляет простор для интерпретаций.

 
 
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение11.09.2012, 02:53 
Munin в сообщении #617233 писал(а):
Раз закономерность эмпирическая, то для естественного языка он и получен, и верен.

Так ведь вроде (если верить Вики) тот американец строго доказал, что и случайная последовательность символов также подчиняется закону Ципфа.

-- 11.09.2012, 02:57 --

Ведь вроде этот закон позиционируется как справедливый для слов именно естественных языков, а не вообще знаковых систем.

 
 
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение11.09.2012, 03:34 
Аватара пользователя
longstreet в сообщении #617245 писал(а):
Так ведь вроде (если верить Вики) тот американец строго доказал, что и случайная последовательность символов также подчиняется закону Ципфа.

Боюсь, это верно только для некоторых случайных распределений, и вообще "если верить Вики" звучит смешно.

А естественные языки, как легко заметить, не случайные последовательности символов.

longstreet в сообщении #617245 писал(а):
Ведь вроде этот закон позиционируется как справедливый для слов именно естественных языков, а не вообще знаковых систем.

Взяли какой-то язык, например, английский. Посчитали. Оказалось. Взяли другой. Оказалось такое же. И так далее. Вот и всё "позиционируется". Лингвисты не дураки, и не стремятся обобщать свои законы на что угодно, а работают только с тем, с чем работают - с естественными языками.

 
 
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение11.09.2012, 10:32 
Я понимаю, что для большинства естественных языков закон Ципфа более-менее справедлив. Но если это верно почти-для-всего-угодно, то это уже не такой интересный закон...

-- 11.09.2012, 10:34 --

Закон: совы состоят из атомов.
Ну ведь не круто, не?

 
 
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение11.09.2012, 12:59 
Аватара пользователя
longstreet в сообщении #617200 писал(а):
Американский биолог Ли Вэньтянь попытался опровергнуть закон Ципфа, строго доказав, что случайная последовательность символов также подчиняется закону Ципфа. Автор делает гипотетический вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, не имеющим отношения к семантике текста.
Это бред. У случайной последовательности символов будет тот закон распределения, какой зададите при её генерации. Хотите - равномерный, хотите - любой другой.

 
 
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение11.09.2012, 13:01 
Действительно... Спасибо!

 
 
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение13.09.2012, 11:36 
Аватара пользователя
0. Закон Ципфа это статистический феномен, поскольку наблюдался статистически. Верно, Вас беспокоит вопрос, не является ли он статистическим артефактом, в смысле продуктом, порождённым лишь обработкой данных, подобно множеству экономических циклов разнообразной длины, отысканных в 1860-е-1930-е годы экономистами, пока Слуцкий и Юл не показали, что сочетание скользящего среднего и конечных разностей, стандартных методов для удаления случайной составляющей и непериодического тренда соответственно, работает, как полосный фильтр, способный из белого шума построить красивую периодическую кривую?
1. Некоторое основание для этого есть. При установлении закона Ципфа, связи между рангом слова и его частотой встречаемости, сперва строим этот ранг, как раз исходя из частоты, то есть зависимость частоты от ранга уже по построению будет монотонно убывающей к нулю функцией. Так что возможность её аппроксимировать степенной с отрицательным показателем не столь уж потрясающа. Хотя можно выбирать между степенной, экспонентой и, скажем, 1-Ф(x), где Ф(x) - функция нормального распределения. Причём для случайной последовательности (в которой символ окончания слова появляется случайно с вероятностью p) экспонента кажется как-то вероятнее - поскольку экспоненциально убывает вероятность слова длиной L $P(L)=Kp(1-p)^L$
2. Однако это рассуждение не учитывает того, что коротких слов в такой модели больше, а это влияет на ранг слов. В модели Ли Вэнтяня принимается, что алфавит состоит из (M+1) символов, из коих M - обычные буквы, и одна - разделитель между словами, и они выбираются случайно и равновероятно. Тогда для частоты слова в зависимости от его ранга выполняется неравенство, которое объясняет зависимость $P(r)=\frac C {(r+B)^\alpha}$, причём постоянные C, B и $\alpha$ зависят лишь от M. Подставляя M=26, получаем значения, близкие к параметрам закона Ципфа для английского.
3. Эмпирического значения закона для лингвистики (особенно для практики, типа определения потребных объёмов словарей и т.п.) это не отменяет, но особых тайн, видимо, за ним не кроется.
4. Ссылка на работу Ли Вэнтяня
http://www.nslij-genetics.org/wli/pub/ieee92_pre.pdf

 
 
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение13.09.2012, 19:33 
Аватара пользователя
Всё-таки, что статистически слова естественного языка ведут себя близко к случайным последовательностям букв, наверное, нетривиальный факт :-)

 
 
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение13.09.2012, 22:41 
Аватара пользователя
С другой стороны, речь это средство передачи информации, а для него такое свойство довольно естественно.

 
 
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение13.09.2012, 23:27 
Аватара пользователя
Непонятно, почему "естественно". Будь оно эволюционно оттачиваемо в сторону уплонения информационной плотности, это ещё можно было бы понять. Но действует и противоположная тенденция: снижение плотности информации для повышения помехоустойчивости.

 
 
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение03.09.2015, 04:39 
Аватара пользователя
https://ru.wikipedia.org/wiki/Закон_Ципфа
Цитата:
... случайная последовательность символов также подчиняется закону Ципфа... В общих чертах доказательство этой теории состоит в следующем. Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом n в той же пропорции, в какой растёт при этом номер этого слова в частотном списке. Потому произведение номера слова на его частоту есть константа.

Интересно, почему это бредовое утверждение никем не оспаривается? И статья в Википедии так долго остаётся в этом состоянии?
Иными словами, утверждается, что в случайной последовательности цифр $0$ и $1$ одна из цифр будет встречаться в 2 раза чаще другой.

 
 
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение03.09.2015, 08:19 
Аватара пользователя
Евгений Машеров в сообщении #618158 писал(а):
4. Ссылка на работу Ли Вэнтяня
...

Эта тема обсуждалась лет 5 тому на форуме и ссылка там эта тоже была. Последний раз я заходил по этой ссылке в мае -- она ещё работала. Сейчас "404 -- Not found" :-(
Теперь нужно искать статью на диске. Постоянно нужно тратить время на структурирование ссылок (потому что ими пользоваться удобнее) и структурирование той же информации в скачанном виде. До последнего руки пока не доходят.

atlakatl
И теперь почти все, считающие Вики помойкой, будут Вам поддакивать. А зачем разбираться, кто бредит, если утверждение эмоционально приятно.

-- 03.09.2015, 08:30 --

Хм.. только сейчас заметил, что это atlakatl ради своей ерунды поднял трёхлетней давности тему.

 
 
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение03.09.2015, 09:49 
Аватара пользователя
atlakatl в сообщении #1050052 писал(а):
https://ru.wikipedia.org/wiki/Закон_Ципфа
Цитата:
... случайная последовательность символов также подчиняется закону Ципфа... В общих чертах доказательство этой теории состоит в следующем. Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом n в той же пропорции, в какой растёт при этом номер этого слова в частотном списке. Потому произведение номера слова на его частоту есть константа.

Интересно, почему это бредовое утверждение никем не оспаривается? И статья в Википедии так долго остаётся в этом состоянии?
Иными словами, утверждается, что в случайной последовательности цифр $0$ и $1$ одна из цифр будет встречаться в 2 раза чаще другой.

А кто мешает Вам самому внести в статью в Вики соответствующие изменения?

 
 
 
 Re: Закон Ципфа - верен для для любых текстов или осмысленных?
Сообщение03.09.2015, 10:04 
Аватара пользователя
prof.uskov в сообщении #1050072 писал(а):
А кто мешает Вам самому внести в статью в Вики соответствующие изменения?

Либо Вы не понимаете, что atlakatl заблуждается (точнее, просто не в теме), либо это подстрекательство к вики-вандализму. Вот такая бинарная логика.

 
 
 [ Сообщений: 28 ]  На страницу 1, 2  След.


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group