2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу Пред.  1, 2
 
 
Сообщение23.11.2006, 15:40 
Аватара пользователя
$p_i$ -- это частота появления буквы в тексте?

 
 
 
 
Сообщение23.11.2006, 16:31 
Аватара пользователя
Ну да, это частоты р(а), ..., р(я) во введенном тексте, т.е. количество каждой буквы, деленное на число их всех, считая все их повторения.

Добавлено спустя 4 минуты 47 секунд:

Вот контрольный пример, правда, посчитанный вручную.
Цитата:
Возьмем, например, предложение "Отношение длины окружности к диаметру обозначается греческой буквой пи". Его энтропия равна 4 с четвертью (4.248...), откуда пи равно "библейским" трем (3.00...).

 
 
 
 
Сообщение23.11.2006, 22:37 
Аватара пользователя
я добавил подсчет энтропии по вашей формуле.

 
 
 
 
Сообщение24.11.2006, 14:28 
Аватара пользователя
Спасибо, cepesh. Еще бы указать единицу измерения этой энтропии: бит$/\sqrt2$.

 
 
 
 
Сообщение24.11.2006, 14:39 
Аватара пользователя
почему бит, а не байт?

 
 
 
 
Сообщение24.11.2006, 14:53 
Аватара пользователя
Нет, в битах. Ведь байт - это 8 битов?

И еще, знаков бы после запятой в значении энтропии желательно побольше.

Добавлено спустя 3 минуты 39 секунд:

Не знаю, но можно было обыграть, что это про пи: энтропия или энтроПИя. :D

 
 
 
 
Сообщение24.11.2006, 14:59 
Аватара пользователя
мой вопрос был "почему?"

 
 
 
 
Сообщение24.11.2006, 15:09 
Аватара пользователя
Потому что логарифм берется двоичный. Если, например, взять логарифм натуральный, то энтропия будет не в битах, а в натах.

Добавлено спустя 2 минуты 23 секунды:

А на $\sqrt2$ мы делим энтропию дополнительно, чтобы получалось пи.

 
 
 [ Сообщений: 23 ]  На страницу Пред.  1, 2


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group