2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки





Начать новую тему Ответить на тему
 
 Альтернатива закону Ципфа?
Сообщение08.02.2017, 14:03 


20/12/14
42
Заинтересовавшись темами, близкими к закону Ципфа,
провёл следующий эксперимент. "Прогнал" книги Диккенса (свыше 2 млн. слов)
через определитель частей речи (использовал TreeTagger).

И расположил их по частоте появления. Использовал 31 основной и второстепенный
тег. То, что получилось, мало похоже на закон Ципфа!
(Построено в двойной логарифмической шкале, как и положено):
Изображение

А если рассмотреть частоты появления сочетаний из 2, 3 и т.д. частей речи,
то всё-таки можно увидеть явную закономерность:
Изображение

Очень похоже на $a (1-b \log x )^c$
Решил подойти к этому с другой стороны. Возьмём какой-нибудь генератор детерминированного хаоса,
например двухпараметрическое отображение окружности:
$$x_{n+1}=x_n + r - k \sin(2\pi x_n)/2 \pi \mod 1$$
Чтобы создать подобие "текста", разобьём область значений генератора на 30 равных участков,
найдем частоты попадания в них и расположим по убыванию.
Нетрудно найти значения параметров, при которых получается "Ципф", а также нечто подобное распределениям частей речи.
Изображение
Изображение

Не есть ли всё это формы некоторого более общего распределения?
Может, кто сталкивался с доп. информацией на подобную тематику.

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение24.03.2017, 11:52 


10/03/16
59
denny
Закон Ципфа применим к текстам с очень низкой длиной корреляции. Проще говоря, к спискоте: справочники, каталоги и т.п. Художественный текст имеет очень большую длину корреляции, а потому применение аппроксимации вероятностного распределения частотным - шарлатанство. Даже если кому то ранее "удалось". Или он наврал, что удалось

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение28.03.2017, 07:45 


20/12/14
42
Тогда, возможно, обнаруженная мной закономерность включает длину корреляции
как параметр (т.к. закон Ципфа явно просматривается как ее частный случай).
Что бы почитать на эту тему?

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение29.03.2017, 09:11 


27/02/09
2219
denny в сообщении #1204243 писал(а):
Что бы почитать на эту тему?

А чем плоха, например, английская вики на Zipf's law ?

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение17.06.2017, 05:34 
Аватара пользователя


14/02/12
256
ozheredov в сообщении #1203072 писал(а):
denny
Закон Ципфа применим к текстам с очень низкой длиной корреляции. Проще говоря, к спискоте: справочники, каталоги и т.п. Художественный текст имеет очень большую длину корреляции, а потому применение аппроксимации вероятностного распределения частотным - шарлатанство. Даже если кому то ранее "удалось". Или он наврал, что удалось

Какое шарлатанство? Закон Ципфа подтверждается на всех художественных текстах, но справедлив в средней части распределения ранг-частота. На первых рангах действует поправка Мандельброта, занижающая частоты в языках синтетического строя (линейный сдвиг по рангам, равна 0 для аналитического английского, который исследовал Ципф, 2 для русского и 4-6 для тюркских), на высоких рангах частоты занижает поправка Ворончака, степенная в зависимости от ранга, и в области средних частот появляется интересное образование - кратер (чаша) углубление, отражающее разнотемность выборки.
Главное то, что все параметры распределения лингвистически обоснованы и в неявном виде использовались лингвистами веками ранее формулировки закона.
Беда в другом - СЕО-шники пытаются доказать что поисковые машины благосклонно относятся к текстам, построенным по закону Ципфа (что абсурд - текст всегда построен по закону Ципфа), и предписывают копирайтерам и рерайтерам генерировать тексты с заранее предписываемыми ими частотами слов. Т.е. человек должен написать текст про зарядку аккумулятора, и употребить в нем слова аккумулятор 100 раз кислота 20 раз а напряжение 5 раз. Есть даже программы, которые после анализа живого текста выдают список слов с указанием, какие следует употребить чаще а какие реже и насколько.
Есть и свернутое сжатие ЗЦ до пары-тройки цифр (названных тошнотностью), которые также якобы характеризуют качество текста.
Бред, но предполагается, что яндекс с гуглом такой текст возлюбят с первого прочтения и будут всем рекомендовать в топе выдачи по запросам.
Это, кстати, одна из причин, что интернет заполнен бредовыми текстами. Это не всегда вина писателя, это требования заказчика. А заказчик обычно владелец цветочного киоска или парикмахерской, СТО (!), которому сеошник объяснил, что владеет секретом, как написать эффективный рекламный текст. Битва экстрасенсов отдыхает.

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение18.06.2017, 12:51 


10/03/16
59
Korvin

Denny привёл доказательство обратного. У вас есть экспериментальные подтверждения сказанного вами? Или вы просто где то прочитали и приняли на веру?

-- 18.06.2017, 12:54 --

Korvin в сообщении #1226443 писал(а):
Это, кстати, одна из причин, что интернет заполнен бредовыми текстами


Дайте 10 рандомных ссылок на тексты. хотя бы три из них ведут к бредовому тексту?

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение22.06.2017, 10:20 
Аватара пользователя


14/02/12
256
ozheredov в сообщении #1226751 писал(а):
Korvin

Denny привёл доказательство обратного. У вас есть экспериментальные подтверждения сказанного вами? Или вы просто где то прочитали и приняли на веру?

-- 18.06.2017, 12:54 --

Korvin в сообщении #1226443 писал(а):
Это, кстати, одна из причин, что интернет заполнен бредовыми текстами


Дайте 10 рандомных ссылок на тексты. хотя бы три из них ведут к бредовому тексту?

Denny исследовал распределение частей речи, которых у него оказалось 20-30. Примерно как букв в алфавитах. Это не про закон Ципфа, канонический закон про слова которых тысячи и десятки тысяч.
Притом даже на частях речи первые 5 -10 самых частотных частей дают закон Ципфа. Потом идет загиб книзу, что и на словах наблюдается, я называл явление - поправка Ворончака.
Про наполняемость интернета бредовыми текстами комментировать не буду. Поверьте заказчикам, которые в ТЗ пишут "бредконтент отклоняю сразу". Они надо полагать в теме, хотя и за ними водится. Не было бы явления, не писали бы. Это знали еще древние римляне - 2/3 законов факты.

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение22.06.2017, 11:07 


10/03/16
59
Korvin в сообщении #1228253 писал(а):
Поверьте заказчикам, которые в ТЗ пишут "бредконтент отклоняю сразу"


Вы про наполнения страниц с баннерами с помощью марковских генераторов случайных текстов? Я просто сразу не врубился, извините. Я думал что речь идет об осмысленном тексте, отредактированном так, чтоб частоты встречаемости слов удовлетворяли некоторым требованиям.

Так и все-таки про распределения с загибами снизу-сверху-сбоку: вы сами пробовали их строить? Насколько они воспроизводимы? Не будет ли, что в сочинениях Иванова загиб сверху, а Петрова снизу? А во втором сочинении Петрова опять сверху? Ну и т.п.

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение23.06.2017, 02:57 
Аватара пользователя


14/02/12
256
ozheredov в сообщении #1228267 писал(а):
Korvin в сообщении #1228253 писал(а):
Поверьте заказчикам, которые в ТЗ пишут "бредконтент отклоняю сразу"


Вы про наполнения страниц с баннерами с помощью марковских генераторов случайных текстов? Я просто сразу не врубился, извините. Я думал что речь идет об осмысленном тексте, отредактированном так, чтоб частоты встречаемости слов удовлетворяли некоторым требованиям.

Так и все-таки про распределения с загибами снизу-сверху-сбоку: вы сами пробовали их строить? Насколько они воспроизводимы? Не будет ли, что в сочинениях Иванова загиб сверху, а Петрова снизу? А во втором сочинении Петрова опять сверху? Ну и т.п.

Беда ведь в чем. Закон Ципфа исследовали лингвисты, наработок много. И ни какакие ивановы петровы генерируя осмысленные тексты не в состоянии отклониться в распределении слов от этого закона, притом после параметризации распределения часть параметров характеризует общее - строй языка, часть индивидуальные особенности автора - богатство словарного запаса и пр. Обычно у талантливых авторов повышен % слов, употребленных 1 раз. Но речь ведь идет об анализе текстов, написанных авторами про закон Ципфа не знающими. А теперь представьте автора, который, чтобы выбиться в таланты, искусственно насыщает текст словами, следя за достаточным количеством 1-разовых слов, вылавливая редкие слова по словарям и пр. В итоге же и выйдет бред.
Так и с законом Ципфа, когда за него взялись сеошники, сведено до шарлатанства, как справедливо писали. Ну примитив же - составляется частотный словарь текста (первые 20 слов), а потом под частоту самого частого слова автору предлагается менять частоты 2-го и последующих слов, увеличивая/уменьшая чтобы подогнать под закон Ципфа. За деньги исполнитель сделает все, и многие в том поднаторели, но текст ведь становится нечитаемым.
И в сжатом виде закон Циафа сведен под подсчитываемый по частотам первых слов параметр тошнотности (в англоязычных источниках сколько не искал - нет такого, чисто российское изобретение, но параметра придерживаются все). Формальное следование этому параметру также заставляет исполнителей корежить хорошие тексты, заменяя слова синонимами и выдумывая свои псевдотермины взамен устойчивых сочетаний, которые никак не могут быть изменены. А в угоду формальным параметрам их изменяют.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 9 ] 

Модераторы: Модераторы, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group