2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки





Начать новую тему Ответить на тему
 
 Альтернатива закону Ципфа?
Сообщение08.02.2017, 14:03 


20/12/14
39
Заинтересовавшись темами, близкими к закону Ципфа,
провёл следующий эксперимент. "Прогнал" книги Диккенса (свыше 2 млн. слов)
через определитель частей речи (использовал TreeTagger).

И расположил их по частоте появления. Использовал 31 основной и второстепенный
тег. То, что получилось, мало похоже на закон Ципфа!
(Построено в двойной логарифмической шкале, как и положено):
Изображение

А если рассмотреть частоты появления сочетаний из 2, 3 и т.д. частей речи,
то всё-таки можно увидеть явную закономерность:
Изображение

Очень похоже на $a (1-b \log x )^c$
Решил подойти к этому с другой стороны. Возьмём какой-нибудь генератор детерминированного хаоса,
например двухпараметрическое отображение окружности:
$$x_{n+1}=x_n + r - k \sin(2\pi x_n)/2 \pi \mod 1$$
Чтобы создать подобие "текста", разобьём область значений генератора на 30 равных участков,
найдем частоты попадания в них и расположим по убыванию.
Нетрудно найти значения параметров, при которых получается "Ципф", а также нечто подобное распределениям частей речи.
Изображение
Изображение

Не есть ли всё это формы некоторого более общего распределения?
Может, кто сталкивался с доп. информацией на подобную тематику.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ 1 сообщение ] 

Модераторы: Модераторы, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group