2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки





Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Альтернатива закону Ципфа?
Сообщение08.02.2017, 14:03 


20/12/14
42
Заинтересовавшись темами, близкими к закону Ципфа,
провёл следующий эксперимент. "Прогнал" книги Диккенса (свыше 2 млн. слов)
через определитель частей речи (использовал TreeTagger).

И расположил их по частоте появления. Использовал 31 основной и второстепенный
тег. То, что получилось, мало похоже на закон Ципфа!
(Построено в двойной логарифмической шкале, как и положено):
Изображение

А если рассмотреть частоты появления сочетаний из 2, 3 и т.д. частей речи,
то всё-таки можно увидеть явную закономерность:
Изображение

Очень похоже на $a (1-b \log x )^c$
Решил подойти к этому с другой стороны. Возьмём какой-нибудь генератор детерминированного хаоса,
например двухпараметрическое отображение окружности:
$$x_{n+1}=x_n + r - k \sin(2\pi x_n)/2 \pi \mod 1$$
Чтобы создать подобие "текста", разобьём область значений генератора на 30 равных участков,
найдем частоты попадания в них и расположим по убыванию.
Нетрудно найти значения параметров, при которых получается "Ципф", а также нечто подобное распределениям частей речи.
Изображение
Изображение

Не есть ли всё это формы некоторого более общего распределения?
Может, кто сталкивался с доп. информацией на подобную тематику.

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение24.03.2017, 11:52 


10/03/16
163
denny
Закон Ципфа применим к текстам с очень низкой длиной корреляции. Проще говоря, к спискоте: справочники, каталоги и т.п. Художественный текст имеет очень большую длину корреляции, а потому применение аппроксимации вероятностного распределения частотным - шарлатанство. Даже если кому то ранее "удалось". Или он наврал, что удалось

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение28.03.2017, 07:45 


20/12/14
42
Тогда, возможно, обнаруженная мной закономерность включает длину корреляции
как параметр (т.к. закон Ципфа явно просматривается как ее частный случай).
Что бы почитать на эту тему?

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение29.03.2017, 09:11 


27/02/09
2257
denny в сообщении #1204243 писал(а):
Что бы почитать на эту тему?

А чем плоха, например, английская вики на Zipf's law ?

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение17.06.2017, 05:34 
Аватара пользователя


14/02/12
427
ozheredov в сообщении #1203072 писал(а):
denny
Закон Ципфа применим к текстам с очень низкой длиной корреляции. Проще говоря, к спискоте: справочники, каталоги и т.п. Художественный текст имеет очень большую длину корреляции, а потому применение аппроксимации вероятностного распределения частотным - шарлатанство. Даже если кому то ранее "удалось". Или он наврал, что удалось

Какое шарлатанство? Закон Ципфа подтверждается на всех художественных текстах, но справедлив в средней части распределения ранг-частота. На первых рангах действует поправка Мандельброта, занижающая частоты в языках синтетического строя (линейный сдвиг по рангам, равна 0 для аналитического английского, который исследовал Ципф, 2 для русского и 4-6 для тюркских), на высоких рангах частоты занижает поправка Ворончака, степенная в зависимости от ранга, и в области средних частот появляется интересное образование - кратер (чаша) углубление, отражающее разнотемность выборки.
Главное то, что все параметры распределения лингвистически обоснованы и в неявном виде использовались лингвистами веками ранее формулировки закона.
Беда в другом - СЕО-шники пытаются доказать что поисковые машины благосклонно относятся к текстам, построенным по закону Ципфа (что абсурд - текст всегда построен по закону Ципфа), и предписывают копирайтерам и рерайтерам генерировать тексты с заранее предписываемыми ими частотами слов. Т.е. человек должен написать текст про зарядку аккумулятора, и употребить в нем слова аккумулятор 100 раз кислота 20 раз а напряжение 5 раз. Есть даже программы, которые после анализа живого текста выдают список слов с указанием, какие следует употребить чаще а какие реже и насколько.
Есть и свернутое сжатие ЗЦ до пары-тройки цифр (названных тошнотностью), которые также якобы характеризуют качество текста.
Бред, но предполагается, что яндекс с гуглом такой текст возлюбят с первого прочтения и будут всем рекомендовать в топе выдачи по запросам.
Это, кстати, одна из причин, что интернет заполнен бредовыми текстами. Это не всегда вина писателя, это требования заказчика. А заказчик обычно владелец цветочного киоска или парикмахерской, СТО (!), которому сеошник объяснил, что владеет секретом, как написать эффективный рекламный текст. Битва экстрасенсов отдыхает.

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение18.06.2017, 12:51 


10/03/16
163
Korvin

Denny привёл доказательство обратного. У вас есть экспериментальные подтверждения сказанного вами? Или вы просто где то прочитали и приняли на веру?

-- 18.06.2017, 12:54 --

Korvin в сообщении #1226443 писал(а):
Это, кстати, одна из причин, что интернет заполнен бредовыми текстами


Дайте 10 рандомных ссылок на тексты. хотя бы три из них ведут к бредовому тексту?

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение22.06.2017, 10:20 
Аватара пользователя


14/02/12
427
ozheredov в сообщении #1226751 писал(а):
Korvin

Denny привёл доказательство обратного. У вас есть экспериментальные подтверждения сказанного вами? Или вы просто где то прочитали и приняли на веру?

-- 18.06.2017, 12:54 --

Korvin в сообщении #1226443 писал(а):
Это, кстати, одна из причин, что интернет заполнен бредовыми текстами


Дайте 10 рандомных ссылок на тексты. хотя бы три из них ведут к бредовому тексту?

Denny исследовал распределение частей речи, которых у него оказалось 20-30. Примерно как букв в алфавитах. Это не про закон Ципфа, канонический закон про слова которых тысячи и десятки тысяч.
Притом даже на частях речи первые 5 -10 самых частотных частей дают закон Ципфа. Потом идет загиб книзу, что и на словах наблюдается, я называл явление - поправка Ворончака.
Про наполняемость интернета бредовыми текстами комментировать не буду. Поверьте заказчикам, которые в ТЗ пишут "бредконтент отклоняю сразу". Они надо полагать в теме, хотя и за ними водится. Не было бы явления, не писали бы. Это знали еще древние римляне - 2/3 законов факты.

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение22.06.2017, 11:07 


10/03/16
163
Korvin в сообщении #1228253 писал(а):
Поверьте заказчикам, которые в ТЗ пишут "бредконтент отклоняю сразу"


Вы про наполнения страниц с баннерами с помощью марковских генераторов случайных текстов? Я просто сразу не врубился, извините. Я думал что речь идет об осмысленном тексте, отредактированном так, чтоб частоты встречаемости слов удовлетворяли некоторым требованиям.

Так и все-таки про распределения с загибами снизу-сверху-сбоку: вы сами пробовали их строить? Насколько они воспроизводимы? Не будет ли, что в сочинениях Иванова загиб сверху, а Петрова снизу? А во втором сочинении Петрова опять сверху? Ну и т.п.

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение23.06.2017, 02:57 
Аватара пользователя


14/02/12
427
ozheredov в сообщении #1228267 писал(а):
Korvin в сообщении #1228253 писал(а):
Поверьте заказчикам, которые в ТЗ пишут "бредконтент отклоняю сразу"


Вы про наполнения страниц с баннерами с помощью марковских генераторов случайных текстов? Я просто сразу не врубился, извините. Я думал что речь идет об осмысленном тексте, отредактированном так, чтоб частоты встречаемости слов удовлетворяли некоторым требованиям.

Так и все-таки про распределения с загибами снизу-сверху-сбоку: вы сами пробовали их строить? Насколько они воспроизводимы? Не будет ли, что в сочинениях Иванова загиб сверху, а Петрова снизу? А во втором сочинении Петрова опять сверху? Ну и т.п.

Беда ведь в чем. Закон Ципфа исследовали лингвисты, наработок много. И ни какакие ивановы петровы генерируя осмысленные тексты не в состоянии отклониться в распределении слов от этого закона, притом после параметризации распределения часть параметров характеризует общее - строй языка, часть индивидуальные особенности автора - богатство словарного запаса и пр. Обычно у талантливых авторов повышен % слов, употребленных 1 раз. Но речь ведь идет об анализе текстов, написанных авторами про закон Ципфа не знающими. А теперь представьте автора, который, чтобы выбиться в таланты, искусственно насыщает текст словами, следя за достаточным количеством 1-разовых слов, вылавливая редкие слова по словарям и пр. В итоге же и выйдет бред.
Так и с законом Ципфа, когда за него взялись сеошники, сведено до шарлатанства, как справедливо писали. Ну примитив же - составляется частотный словарь текста (первые 20 слов), а потом под частоту самого частого слова автору предлагается менять частоты 2-го и последующих слов, увеличивая/уменьшая чтобы подогнать под закон Ципфа. За деньги исполнитель сделает все, и многие в том поднаторели, но текст ведь становится нечитаемым.
И в сжатом виде закон Циафа сведен под подсчитываемый по частотам первых слов параметр тошнотности (в англоязычных источниках сколько не искал - нет такого, чисто российское изобретение, но параметра придерживаются все). Формальное следование этому параметру также заставляет исполнителей корежить хорошие тексты, заменяя слова синонимами и выдумывая свои псевдотермины взамен устойчивых сочетаний, которые никак не могут быть изменены. А в угоду формальным параметрам их изменяют.

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение25.06.2017, 10:51 


10/03/16
163
Korvin

Интересно. А можете ссылку кинуть на самый на ваш взгляд яркий представитель таких текстов?

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение25.06.2017, 11:33 
Аватара пользователя


14/02/12
427
ozheredov в сообщении #1229442 писал(а):
Korvin

Интересно. А можете ссылку кинуть на самый на ваш взгляд яркий представитель таких текстов?

Да откуда же знать, на каких критериях текст из интернета писался и проверялся? Критерии указывает заказчик в ТЗ, пишет во что верит, а опытный исполнитель любые требования выполнит, в угоду ТЗ покорежив текст. Т.ч. если встретите в тексте какой ляп или неудобоваримое сочетание, это не автор безграмотный, это был такой заказ с ключевиками не соответствующими нормам языка. А невыполнение пунктов ТЗ - повод для отказа от оплаты.
Главное, что никого, за редким исключением, не интересует содержание текста, главное - формальные параметры, чтобы текст признали оригинальным яндекс и гугл и поместили в топ выдачи по запросам. При этом яндекс и гугл тщательно скрывают алгоритмы анализа текстов, время от времени их меняя (обходя уловки авторов текстов), и существует целое направление исследований, пытающееся вскрыть эти алгоритмы по методу анализа черного ящика (вход-выход) и выдачи актуальных на сегодня рекомендаций по сочинению текстов.
Вот пример программы онлайн:
http://pr-cy.ru/zypfa/text
Через нее пропущен мой последний пост, программа выдала рекомендации как мне его править, чтобы улучшить. Бред, но ведь кто-то в это верит. Вот обязан я слово автор с 5 употреблений сократить до 2. На основе таких рекомендаций и составляется мнение о законе Ципфа как о шарлатанстве. Хотя достаточно по нему серьезных работ, Мандельброт или Хердан никак на шарлатанов не смахивают.

Изображение

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение25.06.2017, 15:55 


10/03/16
163
Korvin в сообщении #1229454 писал(а):
Да откуда же знать, на каких критериях текст из интернета писался и проверялся?


Я прошу кусок текста, который не сгенерирован марковским генератором но смотрится как бред по общепринятым критериям литературной, тскать, эстетики. А вторая просьба - взять какой нибудь рассказ классика и по нему нарисовать распределение. Далее подсчитать критерий скажем Колмогорова расхождения с распределением Ципфа

Простите, я правда изъясняюсь настолько туманно?

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение25.06.2017, 16:58 
Аватара пользователя


14/02/12
427
ozheredov в сообщении #1229542 писал(а):
Korvin в сообщении #1229454 писал(а):
Да откуда же знать, на каких критериях текст из интернета писался и проверялся?


Я прошу кусок текста, который не сгенерирован марковским генератором но смотрится как бред по общепринятым критериям литературной, тскать, эстетики. А вторая просьба - взять какой нибудь рассказ классика и по нему нарисовать распределение. Далее подсчитать критерий скажем Колмогорова расхождения с распределением Ципфа

Простите, я правда изъясняюсь настолько туманно?

Зачем? Закон Ципфа лингвистами и открыт был и проверялся на тысячах литературных текстов, именно что классиков. И нет никакого резона сверять по критерию Колмогорова, оттого как все наоборот - параметры закона Ципфа (с поправками Мандельброта и Ворончака) не заданы исходно, а параметризируются по реальному распределению. Понятно, исходя именно из максимального соответствия реальному распределению. А выявленные параметры позволяют характеризовать автора.
Вот пионер лингвостатистики в СССР покойный Р.Г. Пиотровский исследовал в т.ч. и тексты, сгенерированные психически больными людьми (сидят в психушке и сочиняют трактаты об устройстве мира и путях его улучшения). Параметризация текстов немедленно выявляет скудный словарный запас авторов, настолько скудный, что вскорости тексты начинают повторяться в основных чертах. А сгенерированный мастером текст выявляет богатейший словарный запас, в т.ч. и нереализованный вследствие краткости текста.
Есть, например, исследование по словарному запасу Анны Карениной (не взбалмошной дамы, а Льва Толстого), на основе ципфовских характеристик текста. Потенциальный словарь гораздо богаче реально воплощенного словаря (текст ведь достаточно краткий). Спрашивается, что за такие нереализовавшиеся слова? А все просто - Анна Каренина должна была зваться в первоначальном варианте текста Татьяной Ставрович, и выводилась как откровенная стерва. Сменили имя и облагородили ее в окончательном варианте. И муж ее был благороднейшим человеком. Вот эти все слова для подобной характеристики персонажей остались за кадром, но безусловно были в голове у автора, и ципфовские параметры это чувствуют.
И я до сих пор не могу взять в толк, какой собственно от меня и в подтверждение чего требуется текст. Вменяемость интернетовского текста определяется ТЗ заказчика, т.е. его вменяемостью. Примеров изуродованных в угоду формальным критериям текстов полно, не моя задача их выявлять. Чтобы понять, что они потенциально могут собой представлять, зарегистрируйтесь на любой бирже контента и почитайте ТЗ, где в текст объемом 5000 знаков предлагается включить ключевых фраз на 2000 знаков совершенно не соответствующих нормам русского языка.Вопрос - откуда они берутся? Из статистики запросов в яндексе. Вы когда хотите быстро мышцы накачать какой запрос делаете?
Вот достаточно частотные запросы яндекса
сколько набирать массу
тренировки набрать массу
как набрать вес массу
масса протеин
ну и т.д.
Ну и сочините осмысленный текст на заданную тему при условии включения и неизменности подобных фраз, которые нельзя разбивать другими словами склонять и спрягать.

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение26.06.2017, 23:10 


10/03/16
163
Korvin

Я понял. Берётся гистограмма и с помощью триллиона поправок подгоняется к нужному нам распределению. А завтра тот же автор напишет другой текст, и мы найдём триллион других поправок. Практическая ценность = 0, но кого и когда это останавливало?

Толстого анализировал сам, с помощью своих алгоритмов. Что правда то правда - словарный запас зашкаливает и нет коррелирующих друг с другом кусков текста. У имбецилов и звезданутых ситуация будет обратная. Только это можно подсчитать не привлекая математических объектов сложнее 5-го класса

-- 26.06.2017, 23:11 --

Korvin в сообщении #1229551 писал(а):
сколько набирать массу
тренировки набрать массу
как набрать вес массу
масса протеин
ну и т.д.


Облако тегов ~= бессмысленному тексту

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение27.06.2017, 03:56 
Аватара пользователя


14/02/12
427
ozheredov в сообщении #1229871 писал(а):
Я понял. Берётся гистограмма и с помощью триллиона поправок подгоняется к нужному нам распределению. А завтра тот же автор напишет другой текст, и мы найдём триллион других поправок. Практическая ценность = 0, но кого и когда это останавливало?

Далеко не так. Ципфовский параметр всего один, это наклон, поправка Мандельброта отражает строй языка, тут автор волен только выбрать язык другой, а вот поправка Ворончака (правый загиб) отражает богатство словарного запаса, тут и проявляется талант автора. Что не так? Исследовано на тысячах текстов и авторов, какие тут споры ни о чем. 3 параметра, все лингвистически обоснованы. Чтобы автор вдруг начал генерировать тексты с иными характеристиками, нужно или чтобы его Старик в макушку поцеловал, тогда он кандидат в нобели, или деградировать, тогда в психушку и генерировать типовые тексты о путях улучшения мира и природы человека. Согласитесь, то и другое далеко не заурядное явление и не всем дано.
И не надо ерничать, что идет подгонка под реальное распределения из любви к искусству. Для этого вполне годятся полиномы любой степени и безо всякого лингвистического обоснования, можно без ципфа обойтись, метод универсальный.

-- 27.06.2017, 05:02 --

ozheredov в сообщении #1229871 писал(а):
Облако тегов ~= бессмысленному тексту

Это Вы упорно от меня требуете чтобы я просканировал интернет и такие тексты предъявил. Я же Вам дал общий метод - изучите ТЗ которые на основе поисковых запросов потребителя и составите себе представление о таких текстах, не только реально существующих, но и будущих. Сегодняшние запросы = завтрашние тексты.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 19 ]  На страницу 1, 2  След.

Модераторы: Модераторы, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group