2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Закон Ципфа
Сообщение10.05.2010, 23:40 


27/02/09
2840
Имеется любой осмысленный человеческий текст. Пусть $n(m)$ - число различных слов, повторяющихся в тексте $m$ раз. Если построить график зависимости $n(m)$ , то для любых текстов на любом языке будем иметь $n(m) = A/m^2$ , где $A$ - постоянная. Причем зависимость выполняется тем точнее, чем больше длина текста. Это одна из форм знаменитого закона Ципфа, обнаруженного немцем Ципфом около ста лет назад. Забавно, что до сих пор нет достаточно убедительной общепринятой точки зрения на происхождение этой зависимости, выполняющейся с огрмной точностью на протяжении нескольких порядков величины $m$. Возможно, у кого-либо имеются гипотезы на сей счет, было бы интересно услышать...

 Профиль  
                  
 
 Re: Закон Ципфа
Сообщение11.05.2010, 00:12 
Заморожен


29/04/06
302
Питер
Я думаю для китайского, корейского, и японского, закон этот недействителен, так как иероглифы там обозначают не слово, а более того. Чуть ли не абзац.
А так - гортань одна, диапазон звуков один, жизнедеятельность людей на всех континентах в момент рождения языка из слов состоящих из отдельных звуков человеческой гортани и носа, также примерно одинакова - охота, собирательство, сельское хозяйство, поэтому и структура речи одинакова несмотря на различие звуков и слов. В каждом языке есть слово зверь, лес, женщина, ребенок, и т.д. Природой данные потребности, устремления, инстинкты и рефлексы, тоже одинаковы, поэтому и выражение потребностей, устремлений, инстинктов и рефлексов, в словесной форме, тоже одинаково. Отсюда и единый закон для всех языков.

 Профиль  
                  
 
 Re: Закон Ципфа
Сообщение16.05.2010, 13:20 
Заслуженный участник


26/07/09
1559
Алматы
2druggist
Хм, странно... Я слышал о законе Ципфа просто в терминах обратной пропорциональности частоты встречаемости слова и его номера в словаре, упорядоченному по-убыванию частот. Откуда у вас там квадраты взялись (хотя о гиперболическом характере зависимости тоже где-то слышал)...

Честно говоря, я раньше вовсе не придавал значения этому закону, --- действительно, что удивительного в том, что более высокая частота встречается "выше" в упорядоченном списке? --- но прекрасно знаю, что он с успехом применяется в поисковых системах.


2Otez-osnovatel
Ваши рассуждения безусловно интересны, и даже способны объяснить сходства естественных языков... Но как же тогда объяснить существенные различия между некоторыми группами языков? Неужели у европейцев и китайцев настолько различаются гортани? :)

Кстати, закон Ципфа вроде-бы применим не только к языкам, но и к данным совсем иного рода (к почти любым "табличным" биологическим и социальным сведениям)...

P.S.: Как я уже говорил, меня этот закон не слишком-то удивляет (есть, например, понятие энтропии сообщения, однако никто не пытается его "мистифицировать"). И не меня одного --- многие считают закон Ципфа простой стат. закономерностью, свойственной даже "случайным" данным...

Чем-то это напоминает закономерность, согласно которой короткие слова (e.g., предлоги) встречаются чаще длинных (e.g., спец. термины). Так например, Мондельброт пытался объяснить ципфовский закон именно с позиций оптимального кодирования... Увы, с конкретными его работами по данной тематике я не знаком, но взамен могу предложить статью Вэнтяня о подчинении закону Ципфа случайных последовательностей: Wentian Li, Random Texts Exhibit Zipf’s-Law-Like Word Frequency Distribution.

 Профиль  
                  
 
 Re: Закон Ципфа
Сообщение16.05.2010, 20:24 
Заморожен


29/04/06
302
Питер
Circiter в сообщении #319978 писал(а):
Неужели у европейцев и китайцев настолько различаются гортани? :)

Нет, конечно. Я и сам пока точно не знаю, почему языки разделяются на преимущественно гортанное звуки в словах и гортанно-языковые (я этот вопрос не копал, поэтому могу выражаться безграмотно). Тут надо исходить из того, что речь появилась в коллективной форме жизнедеятельности, и должна в фазе первоначального формирования быть в форме подражания звукам природы и зверей. Звучание слова тигр в китайском знаете? Я тоже нет :) интересно было бы услышать, так как должно быть похоже на тигриное рычание. Я так полагаю.
Хотя, в русском - медведь не похоже на рык медведя. Мед ведает медведь... Непонятно. В общем, ищите сами :mrgreen:
Да к тому же каждый язык не раз изменялся, и продолжает изменяться.

 Профиль  
                  
 
 Re: Закон Ципфа
Сообщение17.05.2010, 09:47 


27/02/09
2840
Circiter в сообщении #319978 писал(а):
2druggist
Хм, странно... Я слышал о законе Ципфа просто в терминах обратной пропорциональности частоты встречаемости слова и его номера в словаре, упорядоченному по-убыванию частот. Откуда у вас там квадраты взялись (хотя о гиперболическом характере зависимости тоже где-то слышал)...


Вы говорите об "интегральной" форме функции распределения, я же имел в виду "дифференциальную", т.н. плотность распределения вероятности. С несущественными оговорками можно считать $n = dN/dm$, для получения стандартной формы закона - размер(частота) vs ранг надо проинтегрировать по $m$
Кстати, если в качестве $n$ взять число городов с населением $m $ будет такая же зависимость $n=A/m^2$...

2Otez-osnovatel
"Я думаю для китайского, корейского, и японского, закон этот недействителен, так как иероглифы там обозначают не слово, а более того. Чуть ли не абзац."

А какая разница? Знаки делятся на конвенциальные и иконические и обозночают они не "слова" и "абзацы", а объекты и явления внешнего и внутреннего мира... Так что и для иероглифов, если подсчитать соответствующие частоты употребления будет тот же самый закон.

Хотя про китайцев слышал в этой связи, что у них некоторое отличие, точно не помню, касающееся существования зон Брока и Вернике( воспроизведения и восприятия слов) в левом полушарии. Что сказывается на глубинном мировоззрении китайцев...

 Профиль  
                  
 
 Re: Закон Ципфа
Сообщение17.05.2010, 10:02 


10/03/09
96
druggist в сообщении #317820 писал(а):
Имеется любой осмысленный человеческий текст. Пусть $n(m)$ - число различных слов, повторяющихся в тексте $m$ раз. Если построить график зависимости $n(m)$ , то для любых текстов на любом языке будем иметь $n(m) = A/m^2$ , где $A$ - постоянная.


То есть число слов встречающихся 10 раз: $\frac{A}{100}$? Всю жизнь думал, что число слов бывает только натуральным или нулем.

 Профиль  
                  
 
 Re: Закон Ципфа
Сообщение17.05.2010, 10:13 


27/02/09
2840
IE в сообщении #320423 писал(а):
То есть число слов встречающихся 10 раз: $\frac{A}{100}$? Всю жизнь думал, что число слов бывает только натуральным или нулем.


Класс! :D
Ну хорошо, возьмите 10 текстов, подсчитайте для каждого m число n, оно будет, как Вы совершенно верно заметили, натуральным или нулем, а затем возьмите $n$среднее по всем 10-ти текстам...

 Профиль  
                  
 
 Re: Закон Ципфа
Сообщение17.05.2010, 10:31 


10/03/09
96
druggist в сообщении #320428 писал(а):
Ну хорошо, возьмите 10 текстов, подсчитайте для каждого m число n, оно будет, как Вы совершенно верно заметили, натуральным или нулем, а затем возьмите среднее по всем 10-ти текстам...


Не поможет :| , думаю, что речь шла о доле слов, встречающихся m раз, а не об их количестве.

 Профиль  
                  
 
 Re: Закон Ципфа
Сообщение17.05.2010, 10:40 


27/02/09
2840
IE в сообщении #320434 писал(а):
Не поможет :| , думаю, что речь шла о доле слов, встречающихся m раз, а не об их количестве.


Поможет, поможет :D, вот сейчас зафиксирую длину текста M (общее число слов), тогда n - среднее число... "частиц" в "состоянии $m$"

 Профиль  
                  
 
 Re: Закон Ципфа
Сообщение18.05.2010, 02:12 
Заслуженный участник


26/07/09
1559
Алматы
Прямая ссылка на ранее упомянутую вэнтянявскую заметку, может кому интересно будет...

 Профиль  
                  
 
 Re: Закон Ципфа
Сообщение18.05.2010, 05:06 
Заслуженный участник
Аватара пользователя


20/11/08
2763
RF, Moskow
Otez-osnovatel в сообщении #320258 писал(а):
в русском - медведь не похоже на рык медведя. Мед ведает медведь... Непонятно

Историческое отступление, в древнерусском языке, животное именовалось
- 'рыктос', но с ходом истории, ростом хозяйственной деятельности русского человека и приближения его к современной орудийной оснащенности, животное стало одним из ресурсов выживания. Вот и произошла смена нарратива на 'медведь', а наименование 'рыктос' фактически утеряно при переходе с древнерусского к современному русскому языку.

 Профиль  
                  
 
 Re: Закон Ципфа
Сообщение18.05.2010, 16:51 
Заслуженный участник


15/05/05
3445
USA
Otez-osnovatel в сообщении #320258 писал(а):
в русском - медведь не похоже на рык медведя. Мед ведает медведь... Непонятно

Этимология слова медведь: специфика табу

 Профиль  
                  
 
 Re: Закон Ципфа
Сообщение18.05.2010, 23:11 
Заморожен


29/04/06
302
Питер
Вот, вот, подтверждается. Я просто предположил, исходя из положения о подражании как первой фазы обучения выживанию как у человека, так и млекопитающих.
А теперь пришла другая мысль. Гортанные звуки свойственны горским народам, а гласные - равнинным. Стадо первобытных людей. Коллективная охота гораздо производительней - можно загнать зверя в капканы, в яму, на рогатины, в болото, на берег озера, и т.п.
Горы. Узкие пространства, всё в пределах видимости, хорошая слышимость. Естественно, что для координации действий нужны короткие согласные звуки, чтобы не спугнуть зверя раньше времени, тем более, что у него остается коридор отхода из засады, по которому он попал в неё.

Лес, тайга. Пространство широкое, можно не выжидать в засаде, и даже бесполезно. Рассредочение в цепь в пределах слышимости громких звуков, и с постоянным покрикиванием зверь направляется в засаду. Так охотились ещё относительно недавно, особенно на медведей-людоедов. И в тайге согласными не покричишь, координацию можно обеспечить только гласными.

 Профиль  
                  
 
 Re: Закон Ципфа[url=http://http://vivovoco.rsl.ru/VV/JOURNAL/NAT
Сообщение27.05.2010, 15:45 


27/02/09
2840
Circiter в сообщении #320905 писал(а):
Прямая ссылка на ранее упомянутую вэнтянявскую заметку, может кому интересно будет...




На мой взгляд, гораздо более интересная работа по теме http://vivovoco.rsl.ru/VV/JOURNAL/NATUR ... /13-20.PDF , хотя и весьма спорная...

 Профиль  
                  
 
 Re: Закон Ципфа
Сообщение16.10.2011, 21:44 
Аватара пользователя


16/10/11
124
Не удержался, решил поправить. Закон Ципфа это всё-таки "$FREQ = K / RANK$" . Т.е. квадрата там нет. Функция эта нелинейная и даёт гиперболу, потому что $RANK^{-1}$.

Эта путанница: толи "$FREQ = K / RANK$", толи "$FREQ = K / RANK^2$", возникает из-за того что у Ципфа помимо 1-го закона есть еще 2-ой - он то как раз квадрат содержит. Но он описывает не завимость между частотой и рангом слова, а между частотой и количеством разных слов обладающих этой частотой. Вот книжка где это описывается: http://books.google.ru/books?id=8eiUEh5 ... e&q&f=true

Сам на это нарвался, стал смотреть статьи самого Ципфа, самые ранние не нашёл, а нашёл промежуточные, посвящённые второму закону. Дня два потерял пытаясь понять почему у Ципфа квадрат, а у всех вокруг квадрата нет. Интегральныфй и дифференциальный законы распределения здесь ни при чём.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 25 ]  На страницу 1, 2  След.

Модераторы: Jnrty, Модераторы, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group