Закон Ципфа - верен для для любых текстов или осмысленных?

prof.uskov · 03.09.2015, 10:47

(Оффтоп)

grizzly в сообщении #1050076 писал(а):

prof.uskov в сообщении #1050072 писал(а):

А кто мешает Вам самому внести в статью в Вики соответствующие изменения?

Либо Вы не понимаете, что atlakatl заблуждается (точнее, просто не в теме), либо это подстрекательство к вики-вандализму. Вот такая бинарная логика.

Вика - свободная энциклопедия. Любой желающий может вносить изменения. Я спросил то, что спросил и не нужно здесь искать какой-то подтекст. Ничего страшного не произойдет, если он внесет в Вику изменения и потом посмотрит реакцию других авторов.

atlakatl · 03.09.2015, 10:56

grizzly в сообщении #1050067 писал(а):

atlakatl ради своей ерунды поднял трёхлетней давности тему

Поднял тему именно из-за её трёхлетности.

grizzly в сообщении #1050076 писал(а):

atlakatl заблуждается (точнее, просто не в теме)

Цитата из сабжевой статьи Википедии:

Цитата:

Американский биолог Вэньтянь Ли[en] предложил опровержение закона Ципфа, доказав

Ключевое здесь слово "доказал". Считаю, что в крайнем случае это выражение следует употребить со словом "ошибочно". - Или вообще не упоминать "американского биолога".

prof.uskov в сообщении #1050072 писал(а):

кто мешает Вам самому внести в статью в Вики соответствующие изменения?

Решил сначала увидеть реакцию участников dxdy.ru. grizzly указал, что я не прав. Жду от него конкретных аргументов.

grizzly · 03.09.2015, 11:00

(Оффтоп)

prof.uskov в сообщении #1050094 писал(а):

Я спросил то, что спросил и не нужно здесь искать какой-то подтекст. Ничего страшного не произойдет, если он внесет в Вику изменения и потом посмотрит реакцию других авторов.

Я не ищу подтекста, я просто сообщаю Вам и аудитории своё отношение к Вашему вопросу. Сообщаю, естественно, в том виде, в котором считаю нужным.

Насчёт ничего страшного. Как часто Вы вносите правки в Вики? Я делаю это не очень часто, но я как-то решил проследить, как быстро подтверждаются "опытными пользователями" те правки, которые я вношу. Результат -- за последние 2 года не была утверждена пока ни одна. Я думаю, что "опытным пользователям" нет особого дела до около-математических тем, они больше заняты общественно-резонансными вопросами. Вы уверены, что он не забудет пойти посмотреть через пару лет, как отнеслись к его исправлениям? Или Вы возьмёте на себя труд проверить его правки самостоятельно и откатить?

-- 03.09.2015, 11:06 --

atlakatl в сообщении #1050098 писал(а):

Жду от него конкретных аргументов.

Хорошо, попробуем разобраться.

Цитата:

...Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом n в той же пропорции, в какой растёт при этом номер этого слова в частотном списке....

atlakatl в сообщении #1050052 писал(а):

Иными словами, утверждается, что в случайной последовательности цифр $0$ и $1$ одна из цифр будет встречаться в 2 раза чаще другой.

Объясните, пожалуйста, как Вы пришли к этому выводу. Вы уверены, что правильно понимаете значение слова "слово"?
(Заранее предупреждаю, что перевод стрелок в духе "кто-то доказал, что закон Ципфа ошибочен" я не принимаю. Я не защищаю здесь сам закон, я полагаю, что Вы не поняли сути его формулировки и, поэтому, не вправе сводить его до уровня "бреда".)

atlakatl · 03.09.2015, 11:35

grizzly в сообщении #1050102 писал(а):

попробуем разобраться.
Цитата:

...Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом n в той же пропорции, в какой растёт при этом номер этого слова в частотном списке....
atlakatl в сообщении #1050052

писал(а):
Иными словами, утверждается, что в случайной последовательности цифр $0$ и $1$ одна из цифр будет встречаться в 2 раза чаще другой. Объясните, пожалуйста, как Вы пришли к этому выводу.

К закону Ципфа - речь о частоте слов в языке - у меня нет претензий. Повторю цитату из Википедии:

Цитата:

Американский биолог... предложил опровержение закона Ципфа, доказав, что случайная последовательность символов также подчиняется закону Ципфа. Автор делает гипотетический вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, не имеющим отношения к семантике текста.
В общих чертах доказательство этой теории состоит в следующем. Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом n в той же пропорции, в какой растёт при этом номер этого слова в частотном списке. Потому произведение номера слова на его частоту есть константа.

Я не согласен с расширением закона Ципфа на "цепочку случайных символов".

grizzly · 03.09.2015, 11:49

atlakatl в сообщении #1050106 писал(а):

Я не согласен с расширением закона Ципфа на "цепочку случайных символов".

Там же приводится оригинальная статья, в которой всё объясняется.

На всякий случай поясню ещё раз, почему я был недоволен. Какое бы Вы не выбрали понимание этой цитаты (хоть сколько-нибудь корректное), Вы бы не смогли получить, что "цифра "1" встречается в тексте в 2 раза чаще, чем цифра "0" -- это просто грубая ошибка. Если бы Вы сказали то же не про одну из цифр, а про одну из последовательностей "_0_" или "_1_", тогда я лучше смог бы Вас понять и объяснить, что имеется в виду.

Может быть стоит внести небольшое уточнение в Вики (я сделаю это, если придумаю ёмкое и не ухудшающее ситуацию пояснение). Но не называть это бредом -- в любом случае, сейчас в качестве такого уточнения там есть прямая ссылка на статью.

-- 03.09.2015, 12:13 --

atlakatl
Поясню в меру своего понимания. Отнеситесь к этой попытке как к первому приближению, а не как к последней инстанции.

В статье говорится о законе Ципфа применительно к длине слова, а не к отдельным словам. Причём автор использует при этом некоторую методику обрезания лишнего и рассматривает в эмпирических обоснованиях (там есть графики) совсем мало "слов" (от 3 до 6 в зависимости от числа символов в алфавите). Автор считает это аналогом закона Ципфа в естественных языках и заключает из этого, что в естественных языках нет необходимости искать что-то мистическое в этом законе. Интуитивно для меня это выглядит скорее правдоподобным, чем бредом, хотя не уверен, что я достаточно глубоко понимаю взаимосвязи.

atlakatl · 03.09.2015, 12:24

Цитата:

- Не понимаю, почему люди так восхищаются этим Карузо? Косноязычен, гугнив, поёт - ничего не разберёшь!
- А вы слышали, как поёт Карузо?
- Да, мне тут кое-что из его репертуара Рабинович напел по телефону.

Я к чему?
Американский биолог, вероятно, прав. Но объяснение его идеи в статье Википедии действительно "бредовое".
В английском ноль - и не я один. Потому буду благодарен за правильное разъяснение статьи Вэньтянь Ли в русскоязычной Википедии.

grizzly · 03.09.2015, 13:05

(Оффтоп)

atlakatl
Надеюсь, мы пришли к взаимопониманию. В результате (после обсуждения) Ваша последняя постановка вопроса выглядит понятной и приемлемой (для меня, в частности). Надеюсь, что я смогу разобраться глубже в статье (я пока только просмотрел её по диагонали) и внести правки в Вики. Я дам знать тогда.

Мне жаль, что я был излишне эмоционален в этом обсуждении (не только с Вами).

grizzly · 04.09.2015, 15:01

atlakatl
У меня к Вам вопрос по Вашему пониманию формулировок в Вики. Просьба объяснить, как Вы понимаете следующие термины из статистики:

Всё же я считаю, что при правильном понимании этих терминов формулировки в обсуждаемой Вики-статье должны и Вам быть интуитивно понятными. В любом случае я не вижу, каким образом нужно исправлять правильные формулировки на более понятные, если не повторять в этом же (обсуждаемом) абзаце из Вики полностью формулировку закона Ципфа, которая дана в начале статьи и уже к этой формулировке давать ненужные, на мой взгляд, пояснения.

atlakatl · 04.09.2015, 15:38

Порядковая шкала - нумерованный список, сортирующий массив данных по какому-либо критерию.
Порядковый номер - номер в этом списке.
grizzly, это же Ваша формулировка в Википедии?

Цитата:

В общих чертах доказательство этой теории состоит в следующем. Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом n в той же пропорции, в какой растёт при этом номер этого слова в частотном списке. Потому произведение номера слова на его частоту есть константа.

Суть понятна. Интересно будет пробить этот тезис с математической точки зрения.

grizzly · 04.09.2015, 15:59

Понимание порядковой шкалы и ранга у Вас не совсем верные. Они применимы только в некоторых частных случаях. Можете посмотреть самостоятельно в сети? Или поднимите вопрос в ПРР -- пусть лучше Вам объяснят профессионалы в статистике.
На этом, я думаю, мы закончим с первым из обсуждаемых абзацев. Переходим ко второму.

atlakatl в сообщении #1050431 писал(а):

grizzly, это же Ваша формулировка в Википедии?
...

Нет, формулировка не моя. Откуда такая гипотеза :?:

Я предлагаю подкорректировать формулировку следующим образом:

Цитата:

В общих чертах доказательство этой теории состоит в следующем. Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом $n$ в той же пропорции, в какой растёт при этом порядковый номер (ранг) этого слова в частотном списке (порядковой шкале). Потому произведение порядкового номера слова на его частоту есть константа.

В такой формулировке будет видно, что используются термины статистики, а не привычные на бытовом уровне слова.

Dmitriy40 · 04.09.2015, 16:14

grizzly в сообщении #1050442 писал(а):

В такой формулировке будет видно, что используются термины статистики, а не привычные на бытовом уровне слова.

Сомневаюсь. Слова в скобках обычно носят уточняющий смысл и могут быть опущены без кардинального изменения смысла выражения. Т.е. ссылка на статистику слишком неявная и непрофессионалы (как я) на неё просто не обратят внимания, imho.
Как вариант решения я бы предложил разбить абзац на два: сначала для бытового понимания, потом, после слов типа "Более строго:" - пояснение что термины (и какие именно) используются из статистики.

atlakatl · 04.09.2015, 16:23

grizzly в сообщении #1050442 писал(а):

Откуда такая гипотеза :?:

Последняя правка статьи была уже в сентябре... Сейчас посмотрел историю: этот абзац недавно не правился. Извиняюсь.
Ваша формулировка действительно более математична. Если Вы уверены в синонимичности терминов "порядковый номер - ранг" и "частотный список - порядковая шкала", то можно и заменить формулировку на Вашу.

grizzly · 04.09.2015, 16:32

Dmitriy40 в сообщении #1050448 писал(а):

Слова в скобках обычно носят уточняющий смысл и могут быть опущены без кардинального изменения смысла выражения. Т.е. ссылка на статистику слишком неявная

Мне казалось, что утверждение без слов в скобках тоже верное -- главное, нужно было заменить бытовое "номер" на статистическое "порядковый номер".
Но я согласен, что это продолжает сбивать с толку. Лучше просто сказать:
"в какой растёт при этом ранг этого слова в частотном списке (порядковой шкале)".

atlakatl в сообщении #1050452 писал(а):

Если Вы уверены в синонимичности терминов "порядковый номер - ранг" и "частотный список - порядковая шкала", то можно и заменить формулировку на Вашу.

Да, меня уже убедили, что лучше без "порядкового номера". В синонимичности "частотного списка -- порядковой шкалы" в данном контексте я действительно уверен, но в моей формулировке я на ней и не настаиваю -- оставшиеся скобки даны только для уточнения, поскольку всё рассуждение идёт "на пальцах".

Научный форум dxdy

Закон Ципфа - верен для для любых текстов или осмысленных?