2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу 1, 2  След.
 
 Конкурс (почти) панграмм
Сообщение04.09.2017, 16:52 
Конкурс слов. Будем рассматривать только отдельные слова и оценивать их энтропией $H = -\sum\limits_{a\in A} p(a)\log_2 p(a)$, где $A = \{\text а,\ldots,\text ё,\ldots,\text я\}$ — русский алфавит и $p(a)$ — отношение числа вхождений буквы $a$ к общему числу букв. (Нужно считать, что $0\log0 = 0$, что эквивалентно тому, что по отсутствующим буквам не суммируем.) Чем энтропия больше, тем лучше; у «слова» из всех 33 букв (а также у из $33n$ букв, где каждая повторяется $n$ раз) она будет равна максимальному значению $\log_2 33\approx 5{,}0444$.

Для ориентации:
a: $H = -\frac11\log_2\frac11 = 0$.
самолёт: $H = -7\cdot\frac17\log_2\frac17 = \log_27\approx 2{,}8074$.
электрификация ~ э л е кк т р иии ф а ц я: $H = -9\cdot\frac1{14}\log_2\frac1{14} - \frac2{14}\log_2\frac2{14} - \frac3{14}\log_2\frac3{14}\approx 3{,}3249$.
проиллюстрированность ~ п ррр ооо ии лл ю сс тт в а нн ь: $H\approx 3{,}4633$.
Энтропия буквенного наполнения достаточно большого текста (но это текста, а не случайно выбираемого из него слова) на русском языке близка к 4,5.

Споры о допустимости того или иного слова наверняка будут, так что воспримем же это, как обычно, как развлечение, а не как книгу рекордов.

 
 
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 17:03 
То-есть нужно находить слова с большой энтропией?
Ананас вроде хорошее слово.

 
 
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 17:54 
$H(\text{ананас})\approx 1{,}459$ - плохое.
$H(\text{юриспруденция})\approx 3{,}393$ - лучше.
$H(\text{сельхозработы})\approx 3{,}547$ - ещё лучше.

 
 
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 17:59 
kotenok gav
Да, слова (добавил в описание). Ананас как раз плох, набор частот букв должен быть как можно более однородным.

 
 
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 17:59 
$H(\text{автоэлектростеклоподъемники})\approx 3{,}782$.
$H(\text{забулдыжничество})\approx 4{,}000$.
PS. Хак конечно, гуглом вполне можно найти подходящий ответ (что и проделал с этими двумя словами).

 
 
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 18:04 
Аватара пользователя
Dmitriy40 в сообщении #1245143 писал(а):
$H(\text{автоэлектростеклоподъемники})\approx 3{,}782$.

Интересно, а если у этого слова убрать последнюю букву, $H$ как изменится?

 
 
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 18:05 
Ампервольтомметр?
Здравомыслящий?

 
 
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 18:06 

(Спойлер)

Из того словаря, что знает Mатематика

проницательный 3.664497779200461
проницательным 3.664497779200461
проницательных 3.664497779200461
разрушительной 3.664497779200461
рассудительным 3.664497779200461
предводительствуемыми 3.689703732199548
могущественнейших 3.690116517593665
посообразительней 3.690116517593665
безжалостными 3.700439718141092
взбирающегося 3.700439718141092
открывающейся 3.700439718141092
поразительным 3.700439718141092
прогуливаются 3.700439718141092
сильнодействующие 3.734521664779751
быстродвижущиеся 3.75
принадлежностями 3.75
вразумительного 3.773557262275185
кольцеобразными 3.773557262275185
здравомыслящий 3.807354922057604
представляющих 3.807354922057604

 
 
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 18:12 
Munin в сообщении #1245146 писал(а):
Интересно, а если у этого слова убрать последнюю букву, $H$ как изменится?
$H(\text{автоэлектростеклоподъемник})\approx 3{,}767$.

 
 
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 18:15 
Тетрагидропиранилциклопентилтетрагидропиридопиридиновые?

 
 
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 18:22 
$H(\text{взаимоперпендикулярность})\approx 4{,}085$.

-- 04.09.2017, 18:23 --

arseniiv
И стоило бы наверное ограничиться существительными ... И без химии/медицины ...

 
 
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 18:32 
Dmitriy40 в сообщении #1245154 писал(а):
И стоило бы наверное ограничиться существительными ... И без химии/медицины ...
Да, химия неудобна своим весьма развитым словообразованием, портящим всю идею (чем длиннее слово, тем труднее). Про медицину не знаю. Ограничение существительными — возможно, раз уж есть такая традиция в играх со словами, и том, что некоторые аффиксы несуществительных — хорошие доноры малочастотных букв (-ющ-, например).

kotenok gav
Возьмите калькулятор, что ли. :wink:

 
 
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 19:13 
Аватара пользователя
arseniiv
Не поможет: -ющесть.

 
 
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 19:19 
$H(\text{пылевлаговоздухопроницаемость})\approx 4{,}113$. Не уверен что такое есть.

 
 
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 19:21 
Munin
Хм, ну, с этим суффиксом ясно, а со всеми потенциально проблемными другими всё равно или надо исследовать (включая построение их списка, который сразу в голову не приходит), или, действительно, отказываться от несуществительных если только какой-то другой причине.

Dmitriy40
Пока семантика хоть как-то просматривается, почему бы, в самом деле, и нет. Вдруг кому-нибудь эта пылевлаговоздухопроницаемость когда-нибудь понадобится. :-) Вот если в чём-то одинаковые слова пойдут пачками, тогда проведём черту, а пока не видно, где бы это было бы сделать разумнее.

 
 
 [ Сообщений: 18 ]  На страницу 1, 2  След.


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group