2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Альтернатива закону Ципфа?
Сообщение08.02.2017, 14:03 


20/12/14
159
Заинтересовавшись темами, близкими к закону Ципфа,
провёл следующий эксперимент. "Прогнал" книги Диккенса (свыше 2 млн. слов)
через определитель частей речи (использовал TreeTagger).

И расположил их по частоте появления. Использовал 31 основной и второстепенный
тег. То, что получилось, мало похоже на закон Ципфа!
(Построено в двойной логарифмической шкале, как и положено):
Изображение

А если рассмотреть частоты появления сочетаний из 2, 3 и т.д. частей речи,
то всё-таки можно увидеть явную закономерность:
Изображение

Очень похоже на $a (1-b \log x )^c$
Решил подойти к этому с другой стороны. Возьмём какой-нибудь генератор детерминированного хаоса,
например двухпараметрическое отображение окружности:
$$x_{n+1}=x_n + r - k \sin(2\pi x_n)/2 \pi \mod 1$$
Чтобы создать подобие "текста", разобьём область значений генератора на 30 равных участков,
найдем частоты попадания в них и расположим по убыванию.
Нетрудно найти значения параметров, при которых получается "Ципф", а также нечто подобное распределениям частей речи.
Изображение
Изображение

Не есть ли всё это формы некоторого более общего распределения?
Может, кто сталкивался с доп. информацией на подобную тематику.

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение24.03.2017, 11:52 


10/03/16
4444
Aeroport
denny
Закон Ципфа применим к текстам с очень низкой длиной корреляции. Проще говоря, к спискоте: справочники, каталоги и т.п. Художественный текст имеет очень большую длину корреляции, а потому применение аппроксимации вероятностного распределения частотным - шарлатанство. Даже если кому то ранее "удалось". Или он наврал, что удалось

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение28.03.2017, 07:45 


20/12/14
159
Тогда, возможно, обнаруженная мной закономерность включает длину корреляции
как параметр (т.к. закон Ципфа явно просматривается как ее частный случай).
Что бы почитать на эту тему?

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение29.03.2017, 09:11 


27/02/09
2858
denny в сообщении #1204243 писал(а):
Что бы почитать на эту тему?

А чем плоха, например, английская вики на Zipf's law ?

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение17.06.2017, 05:34 
Аватара пользователя


14/02/12

841
Лорд Амбера
ozheredov в сообщении #1203072 писал(а):
denny
Закон Ципфа применим к текстам с очень низкой длиной корреляции. Проще говоря, к спискоте: справочники, каталоги и т.п. Художественный текст имеет очень большую длину корреляции, а потому применение аппроксимации вероятностного распределения частотным - шарлатанство. Даже если кому то ранее "удалось". Или он наврал, что удалось

Какое шарлатанство? Закон Ципфа подтверждается на всех художественных текстах, но справедлив в средней части распределения ранг-частота. На первых рангах действует поправка Мандельброта, занижающая частоты в языках синтетического строя (линейный сдвиг по рангам, равна 0 для аналитического английского, который исследовал Ципф, 2 для русского и 4-6 для тюркских), на высоких рангах частоты занижает поправка Ворончака, степенная в зависимости от ранга, и в области средних частот появляется интересное образование - кратер (чаша) углубление, отражающее разнотемность выборки.
Главное то, что все параметры распределения лингвистически обоснованы и в неявном виде использовались лингвистами веками ранее формулировки закона.
Беда в другом - СЕО-шники пытаются доказать что поисковые машины благосклонно относятся к текстам, построенным по закону Ципфа (что абсурд - текст всегда построен по закону Ципфа), и предписывают копирайтерам и рерайтерам генерировать тексты с заранее предписываемыми ими частотами слов. Т.е. человек должен написать текст про зарядку аккумулятора, и употребить в нем слова аккумулятор 100 раз кислота 20 раз а напряжение 5 раз. Есть даже программы, которые после анализа живого текста выдают список слов с указанием, какие следует употребить чаще а какие реже и насколько.
Есть и свернутое сжатие ЗЦ до пары-тройки цифр (названных тошнотностью), которые также якобы характеризуют качество текста.
Бред, но предполагается, что яндекс с гуглом такой текст возлюбят с первого прочтения и будут всем рекомендовать в топе выдачи по запросам.
Это, кстати, одна из причин, что интернет заполнен бредовыми текстами. Это не всегда вина писателя, это требования заказчика. А заказчик обычно владелец цветочного киоска или парикмахерской, СТО (!), которому сеошник объяснил, что владеет секретом, как написать эффективный рекламный текст. Битва экстрасенсов отдыхает.

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение18.06.2017, 12:51 


10/03/16
4444
Aeroport
Korvin

Denny привёл доказательство обратного. У вас есть экспериментальные подтверждения сказанного вами? Или вы просто где то прочитали и приняли на веру?

-- 18.06.2017, 12:54 --

Korvin в сообщении #1226443 писал(а):
Это, кстати, одна из причин, что интернет заполнен бредовыми текстами


Дайте 10 рандомных ссылок на тексты. хотя бы три из них ведут к бредовому тексту?

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение22.06.2017, 10:20 
Аватара пользователя


14/02/12

841
Лорд Амбера
ozheredov в сообщении #1226751 писал(а):
Korvin

Denny привёл доказательство обратного. У вас есть экспериментальные подтверждения сказанного вами? Или вы просто где то прочитали и приняли на веру?

-- 18.06.2017, 12:54 --

Korvin в сообщении #1226443 писал(а):
Это, кстати, одна из причин, что интернет заполнен бредовыми текстами


Дайте 10 рандомных ссылок на тексты. хотя бы три из них ведут к бредовому тексту?

Denny исследовал распределение частей речи, которых у него оказалось 20-30. Примерно как букв в алфавитах. Это не про закон Ципфа, канонический закон про слова которых тысячи и десятки тысяч.
Притом даже на частях речи первые 5 -10 самых частотных частей дают закон Ципфа. Потом идет загиб книзу, что и на словах наблюдается, я называл явление - поправка Ворончака.
Про наполняемость интернета бредовыми текстами комментировать не буду. Поверьте заказчикам, которые в ТЗ пишут "бредконтент отклоняю сразу". Они надо полагать в теме, хотя и за ними водится. Не было бы явления, не писали бы. Это знали еще древние римляне - 2/3 законов факты.

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение22.06.2017, 11:07 


10/03/16
4444
Aeroport
Korvin в сообщении #1228253 писал(а):
Поверьте заказчикам, которые в ТЗ пишут "бредконтент отклоняю сразу"


Вы про наполнения страниц с баннерами с помощью марковских генераторов случайных текстов? Я просто сразу не врубился, извините. Я думал что речь идет об осмысленном тексте, отредактированном так, чтоб частоты встречаемости слов удовлетворяли некоторым требованиям.

Так и все-таки про распределения с загибами снизу-сверху-сбоку: вы сами пробовали их строить? Насколько они воспроизводимы? Не будет ли, что в сочинениях Иванова загиб сверху, а Петрова снизу? А во втором сочинении Петрова опять сверху? Ну и т.п.

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение23.06.2017, 02:57 
Аватара пользователя


14/02/12

841
Лорд Амбера
ozheredov в сообщении #1228267 писал(а):
Korvin в сообщении #1228253 писал(а):
Поверьте заказчикам, которые в ТЗ пишут "бредконтент отклоняю сразу"


Вы про наполнения страниц с баннерами с помощью марковских генераторов случайных текстов? Я просто сразу не врубился, извините. Я думал что речь идет об осмысленном тексте, отредактированном так, чтоб частоты встречаемости слов удовлетворяли некоторым требованиям.

Так и все-таки про распределения с загибами снизу-сверху-сбоку: вы сами пробовали их строить? Насколько они воспроизводимы? Не будет ли, что в сочинениях Иванова загиб сверху, а Петрова снизу? А во втором сочинении Петрова опять сверху? Ну и т.п.

Беда ведь в чем. Закон Ципфа исследовали лингвисты, наработок много. И ни какакие ивановы петровы генерируя осмысленные тексты не в состоянии отклониться в распределении слов от этого закона, притом после параметризации распределения часть параметров характеризует общее - строй языка, часть индивидуальные особенности автора - богатство словарного запаса и пр. Обычно у талантливых авторов повышен % слов, употребленных 1 раз. Но речь ведь идет об анализе текстов, написанных авторами про закон Ципфа не знающими. А теперь представьте автора, который, чтобы выбиться в таланты, искусственно насыщает текст словами, следя за достаточным количеством 1-разовых слов, вылавливая редкие слова по словарям и пр. В итоге же и выйдет бред.
Так и с законом Ципфа, когда за него взялись сеошники, сведено до шарлатанства, как справедливо писали. Ну примитив же - составляется частотный словарь текста (первые 20 слов), а потом под частоту самого частого слова автору предлагается менять частоты 2-го и последующих слов, увеличивая/уменьшая чтобы подогнать под закон Ципфа. За деньги исполнитель сделает все, и многие в том поднаторели, но текст ведь становится нечитаемым.
И в сжатом виде закон Циафа сведен под подсчитываемый по частотам первых слов параметр тошнотности (в англоязычных источниках сколько не искал - нет такого, чисто российское изобретение, но параметра придерживаются все). Формальное следование этому параметру также заставляет исполнителей корежить хорошие тексты, заменяя слова синонимами и выдумывая свои псевдотермины взамен устойчивых сочетаний, которые никак не могут быть изменены. А в угоду формальным параметрам их изменяют.

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение25.06.2017, 10:51 


10/03/16
4444
Aeroport
Korvin

Интересно. А можете ссылку кинуть на самый на ваш взгляд яркий представитель таких текстов?

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение25.06.2017, 11:33 
Аватара пользователя


14/02/12

841
Лорд Амбера
ozheredov в сообщении #1229442 писал(а):
Korvin

Интересно. А можете ссылку кинуть на самый на ваш взгляд яркий представитель таких текстов?

Да откуда же знать, на каких критериях текст из интернета писался и проверялся? Критерии указывает заказчик в ТЗ, пишет во что верит, а опытный исполнитель любые требования выполнит, в угоду ТЗ покорежив текст. Т.ч. если встретите в тексте какой ляп или неудобоваримое сочетание, это не автор безграмотный, это был такой заказ с ключевиками не соответствующими нормам языка. А невыполнение пунктов ТЗ - повод для отказа от оплаты.
Главное, что никого, за редким исключением, не интересует содержание текста, главное - формальные параметры, чтобы текст признали оригинальным яндекс и гугл и поместили в топ выдачи по запросам. При этом яндекс и гугл тщательно скрывают алгоритмы анализа текстов, время от времени их меняя (обходя уловки авторов текстов), и существует целое направление исследований, пытающееся вскрыть эти алгоритмы по методу анализа черного ящика (вход-выход) и выдачи актуальных на сегодня рекомендаций по сочинению текстов.
Вот пример программы онлайн:
http://pr-cy.ru/zypfa/text
Через нее пропущен мой последний пост, программа выдала рекомендации как мне его править, чтобы улучшить. Бред, но ведь кто-то в это верит. Вот обязан я слово автор с 5 употреблений сократить до 2. На основе таких рекомендаций и составляется мнение о законе Ципфа как о шарлатанстве. Хотя достаточно по нему серьезных работ, Мандельброт или Хердан никак на шарлатанов не смахивают.

Изображение

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение25.06.2017, 15:55 


10/03/16
4444
Aeroport
Korvin в сообщении #1229454 писал(а):
Да откуда же знать, на каких критериях текст из интернета писался и проверялся?


Я прошу кусок текста, который не сгенерирован марковским генератором но смотрится как бред по общепринятым критериям литературной, тскать, эстетики. А вторая просьба - взять какой нибудь рассказ классика и по нему нарисовать распределение. Далее подсчитать критерий скажем Колмогорова расхождения с распределением Ципфа

Простите, я правда изъясняюсь настолько туманно?

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение25.06.2017, 16:58 
Аватара пользователя


14/02/12

841
Лорд Амбера
ozheredov в сообщении #1229542 писал(а):
Korvin в сообщении #1229454 писал(а):
Да откуда же знать, на каких критериях текст из интернета писался и проверялся?


Я прошу кусок текста, который не сгенерирован марковским генератором но смотрится как бред по общепринятым критериям литературной, тскать, эстетики. А вторая просьба - взять какой нибудь рассказ классика и по нему нарисовать распределение. Далее подсчитать критерий скажем Колмогорова расхождения с распределением Ципфа

Простите, я правда изъясняюсь настолько туманно?

Зачем? Закон Ципфа лингвистами и открыт был и проверялся на тысячах литературных текстов, именно что классиков. И нет никакого резона сверять по критерию Колмогорова, оттого как все наоборот - параметры закона Ципфа (с поправками Мандельброта и Ворончака) не заданы исходно, а параметризируются по реальному распределению. Понятно, исходя именно из максимального соответствия реальному распределению. А выявленные параметры позволяют характеризовать автора.
Вот пионер лингвостатистики в СССР покойный Р.Г. Пиотровский исследовал в т.ч. и тексты, сгенерированные психически больными людьми (сидят в психушке и сочиняют трактаты об устройстве мира и путях его улучшения). Параметризация текстов немедленно выявляет скудный словарный запас авторов, настолько скудный, что вскорости тексты начинают повторяться в основных чертах. А сгенерированный мастером текст выявляет богатейший словарный запас, в т.ч. и нереализованный вследствие краткости текста.
Есть, например, исследование по словарному запасу Анны Карениной (не взбалмошной дамы, а Льва Толстого), на основе ципфовских характеристик текста. Потенциальный словарь гораздо богаче реально воплощенного словаря (текст ведь достаточно краткий). Спрашивается, что за такие нереализовавшиеся слова? А все просто - Анна Каренина должна была зваться в первоначальном варианте текста Татьяной Ставрович, и выводилась как откровенная стерва. Сменили имя и облагородили ее в окончательном варианте. И муж ее был благороднейшим человеком. Вот эти все слова для подобной характеристики персонажей остались за кадром, но безусловно были в голове у автора, и ципфовские параметры это чувствуют.
И я до сих пор не могу взять в толк, какой собственно от меня и в подтверждение чего требуется текст. Вменяемость интернетовского текста определяется ТЗ заказчика, т.е. его вменяемостью. Примеров изуродованных в угоду формальным критериям текстов полно, не моя задача их выявлять. Чтобы понять, что они потенциально могут собой представлять, зарегистрируйтесь на любой бирже контента и почитайте ТЗ, где в текст объемом 5000 знаков предлагается включить ключевых фраз на 2000 знаков совершенно не соответствующих нормам русского языка.Вопрос - откуда они берутся? Из статистики запросов в яндексе. Вы когда хотите быстро мышцы накачать какой запрос делаете?
Вот достаточно частотные запросы яндекса
сколько набирать массу
тренировки набрать массу
как набрать вес массу
масса протеин
ну и т.д.
Ну и сочините осмысленный текст на заданную тему при условии включения и неизменности подобных фраз, которые нельзя разбивать другими словами склонять и спрягать.

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение26.06.2017, 23:10 


10/03/16
4444
Aeroport
Korvin

Я понял. Берётся гистограмма и с помощью триллиона поправок подгоняется к нужному нам распределению. А завтра тот же автор напишет другой текст, и мы найдём триллион других поправок. Практическая ценность = 0, но кого и когда это останавливало?

Толстого анализировал сам, с помощью своих алгоритмов. Что правда то правда - словарный запас зашкаливает и нет коррелирующих друг с другом кусков текста. У имбецилов и звезданутых ситуация будет обратная. Только это можно подсчитать не привлекая математических объектов сложнее 5-го класса

-- 26.06.2017, 23:11 --

Korvin в сообщении #1229551 писал(а):
сколько набирать массу
тренировки набрать массу
как набрать вес массу
масса протеин
ну и т.д.


Облако тегов ~= бессмысленному тексту

 Профиль  
                  
 
 Re: Альтернатива закону Ципфа?
Сообщение27.06.2017, 03:56 
Аватара пользователя


14/02/12

841
Лорд Амбера
ozheredov в сообщении #1229871 писал(а):
Я понял. Берётся гистограмма и с помощью триллиона поправок подгоняется к нужному нам распределению. А завтра тот же автор напишет другой текст, и мы найдём триллион других поправок. Практическая ценность = 0, но кого и когда это останавливало?

Далеко не так. Ципфовский параметр всего один, это наклон, поправка Мандельброта отражает строй языка, тут автор волен только выбрать язык другой, а вот поправка Ворончака (правый загиб) отражает богатство словарного запаса, тут и проявляется талант автора. Что не так? Исследовано на тысячах текстов и авторов, какие тут споры ни о чем. 3 параметра, все лингвистически обоснованы. Чтобы автор вдруг начал генерировать тексты с иными характеристиками, нужно или чтобы его Старик в макушку поцеловал, тогда он кандидат в нобели, или деградировать, тогда в психушку и генерировать типовые тексты о путях улучшения мира и природы человека. Согласитесь, то и другое далеко не заурядное явление и не всем дано.
И не надо ерничать, что идет подгонка под реальное распределения из любви к искусству. Для этого вполне годятся полиномы любой степени и безо всякого лингвистического обоснования, можно без ципфа обойтись, метод универсальный.

-- 27.06.2017, 05:02 --

ozheredov в сообщении #1229871 писал(а):
Облако тегов ~= бессмысленному тексту

Это Вы упорно от меня требуете чтобы я просканировал интернет и такие тексты предъявил. Я же Вам дал общий метод - изучите ТЗ которые на основе поисковых запросов потребителя и составите себе представление о таких текстах, не только реально существующих, но и будущих. Сегодняшние запросы = завтрашние тексты.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 19 ]  На страницу 1, 2  След.

Модераторы: Модераторы, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: пианист


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group