2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Конкурс (почти) панграмм
Сообщение04.09.2017, 16:52 
Заслуженный участник


27/04/09
28128
Конкурс слов. Будем рассматривать только отдельные слова и оценивать их энтропией $H = -\sum\limits_{a\in A} p(a)\log_2 p(a)$, где $A = \{\text а,\ldots,\text ё,\ldots,\text я\}$ — русский алфавит и $p(a)$ — отношение числа вхождений буквы $a$ к общему числу букв. (Нужно считать, что $0\log0 = 0$, что эквивалентно тому, что по отсутствующим буквам не суммируем.) Чем энтропия больше, тем лучше; у «слова» из всех 33 букв (а также у из $33n$ букв, где каждая повторяется $n$ раз) она будет равна максимальному значению $\log_2 33\approx 5{,}0444$.

Для ориентации:
a: $H = -\frac11\log_2\frac11 = 0$.
самолёт: $H = -7\cdot\frac17\log_2\frac17 = \log_27\approx 2{,}8074$.
электрификация ~ э л е кк т р иии ф а ц я: $H = -9\cdot\frac1{14}\log_2\frac1{14} - \frac2{14}\log_2\frac2{14} - \frac3{14}\log_2\frac3{14}\approx 3{,}3249$.
проиллюстрированность ~ п ррр ооо ии лл ю сс тт в а нн ь: $H\approx 3{,}4633$.
Энтропия буквенного наполнения достаточно большого текста (но это текста, а не случайно выбираемого из него слова) на русском языке близка к 4,5.

Споры о допустимости того или иного слова наверняка будут, так что воспримем же это, как обычно, как развлечение, а не как книгу рекордов.

 Профиль  
                  
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 17:03 


21/05/16
4292
Аделаида
То-есть нужно находить слова с большой энтропией?
Ананас вроде хорошее слово.

 Профиль  
                  
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 17:54 
Заслуженный участник


20/08/14
11766
Россия, Москва
$H(\text{ананас})\approx 1{,}459$ - плохое.
$H(\text{юриспруденция})\approx 3{,}393$ - лучше.
$H(\text{сельхозработы})\approx 3{,}547$ - ещё лучше.

 Профиль  
                  
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 17:59 
Заслуженный участник


27/04/09
28128
kotenok gav
Да, слова (добавил в описание). Ананас как раз плох, набор частот букв должен быть как можно более однородным.

 Профиль  
                  
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 17:59 
Заслуженный участник


20/08/14
11766
Россия, Москва
$H(\text{автоэлектростеклоподъемники})\approx 3{,}782$.
$H(\text{забулдыжничество})\approx 4{,}000$.
PS. Хак конечно, гуглом вполне можно найти подходящий ответ (что и проделал с этими двумя словами).

 Профиль  
                  
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 18:04 
Заслуженный участник
Аватара пользователя


30/01/06
72407
Dmitriy40 в сообщении #1245143 писал(а):
$H(\text{автоэлектростеклоподъемники})\approx 3{,}782$.

Интересно, а если у этого слова убрать последнюю букву, $H$ как изменится?

 Профиль  
                  
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 18:05 


21/05/16
4292
Аделаида
Ампервольтомметр?
Здравомыслящий?

 Профиль  
                  
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 18:06 
Заслуженный участник


25/02/11
1797

(Спойлер)

Из того словаря, что знает Mатематика

проницательный 3.664497779200461
проницательным 3.664497779200461
проницательных 3.664497779200461
разрушительной 3.664497779200461
рассудительным 3.664497779200461
предводительствуемыми 3.689703732199548
могущественнейших 3.690116517593665
посообразительней 3.690116517593665
безжалостными 3.700439718141092
взбирающегося 3.700439718141092
открывающейся 3.700439718141092
поразительным 3.700439718141092
прогуливаются 3.700439718141092
сильнодействующие 3.734521664779751
быстродвижущиеся 3.75
принадлежностями 3.75
вразумительного 3.773557262275185
кольцеобразными 3.773557262275185
здравомыслящий 3.807354922057604
представляющих 3.807354922057604

 Профиль  
                  
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 18:12 
Заслуженный участник


20/08/14
11766
Россия, Москва
Munin в сообщении #1245146 писал(а):
Интересно, а если у этого слова убрать последнюю букву, $H$ как изменится?
$H(\text{автоэлектростеклоподъемник})\approx 3{,}767$.

 Профиль  
                  
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 18:15 


21/05/16
4292
Аделаида
Тетрагидропиранилциклопентилтетрагидропиридопиридиновые?

 Профиль  
                  
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 18:22 
Заслуженный участник


20/08/14
11766
Россия, Москва
$H(\text{взаимоперпендикулярность})\approx 4{,}085$.

-- 04.09.2017, 18:23 --

arseniiv
И стоило бы наверное ограничиться существительными ... И без химии/медицины ...

 Профиль  
                  
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 18:32 
Заслуженный участник


27/04/09
28128
Dmitriy40 в сообщении #1245154 писал(а):
И стоило бы наверное ограничиться существительными ... И без химии/медицины ...
Да, химия неудобна своим весьма развитым словообразованием, портящим всю идею (чем длиннее слово, тем труднее). Про медицину не знаю. Ограничение существительными — возможно, раз уж есть такая традиция в играх со словами, и том, что некоторые аффиксы несуществительных — хорошие доноры малочастотных букв (-ющ-, например).

kotenok gav
Возьмите калькулятор, что ли. :wink:

 Профиль  
                  
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 19:13 
Заслуженный участник
Аватара пользователя


30/01/06
72407
arseniiv
Не поможет: -ющесть.

 Профиль  
                  
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 19:19 
Заслуженный участник


20/08/14
11766
Россия, Москва
$H(\text{пылевлаговоздухопроницаемость})\approx 4{,}113$. Не уверен что такое есть.

 Профиль  
                  
 
 Re: Конкурс (почти) панграмм
Сообщение04.09.2017, 19:21 
Заслуженный участник


27/04/09
28128
Munin
Хм, ну, с этим суффиксом ясно, а со всеми потенциально проблемными другими всё равно или надо исследовать (включая построение их списка, который сразу в голову не приходит), или, действительно, отказываться от несуществительных если только какой-то другой причине.

Dmitriy40
Пока семантика хоть как-то просматривается, почему бы, в самом деле, и нет. Вдруг кому-нибудь эта пылевлаговоздухопроницаемость когда-нибудь понадобится. :-) Вот если в чём-то одинаковые слова пойдут пачками, тогда проведём черту, а пока не видно, где бы это было бы сделать разумнее.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 18 ]  На страницу 1, 2  След.

Модератор: Модераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: YandexBot [bot]


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group