2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу Пред.  1, 2
 
 
Сообщение23.11.2006, 15:40 
Основатель
Аватара пользователя


11/05/05
4313
$p_i$ -- это частота появления буквы в тексте?

 Профиль  
                  
 
 
Сообщение23.11.2006, 16:31 
Аватара пользователя


15/11/06
2689
Москва Первомайская
Ну да, это частоты р(а), ..., р(я) во введенном тексте, т.е. количество каждой буквы, деленное на число их всех, считая все их повторения.

Добавлено спустя 4 минуты 47 секунд:

Вот контрольный пример, правда, посчитанный вручную.
Цитата:
Возьмем, например, предложение "Отношение длины окружности к диаметру обозначается греческой буквой пи". Его энтропия равна 4 с четвертью (4.248...), откуда пи равно "библейским" трем (3.00...).

 Профиль  
                  
 
 
Сообщение23.11.2006, 22:37 
Основатель
Аватара пользователя


11/05/05
4313
я добавил подсчет энтропии по вашей формуле.

 Профиль  
                  
 
 
Сообщение24.11.2006, 14:28 
Аватара пользователя


15/11/06
2689
Москва Первомайская
Спасибо, cepesh. Еще бы указать единицу измерения этой энтропии: бит$/\sqrt2$.

 Профиль  
                  
 
 
Сообщение24.11.2006, 14:39 
Основатель
Аватара пользователя


11/05/05
4313
почему бит, а не байт?

 Профиль  
                  
 
 
Сообщение24.11.2006, 14:53 
Аватара пользователя


15/11/06
2689
Москва Первомайская
Нет, в битах. Ведь байт - это 8 битов?

И еще, знаков бы после запятой в значении энтропии желательно побольше.

Добавлено спустя 3 минуты 39 секунд:

Не знаю, но можно было обыграть, что это про пи: энтропия или энтроПИя. :D

 Профиль  
                  
 
 
Сообщение24.11.2006, 14:59 
Основатель
Аватара пользователя


11/05/05
4313
мой вопрос был "почему?"

 Профиль  
                  
 
 
Сообщение24.11.2006, 15:09 
Аватара пользователя


15/11/06
2689
Москва Первомайская
Потому что логарифм берется двоичный. Если, например, взять логарифм натуральный, то энтропия будет не в битах, а в натах.

Добавлено спустя 2 минуты 23 секунды:

А на $\sqrt2$ мы делим энтропию дополнительно, чтобы получалось пи.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 23 ]  На страницу Пред.  1, 2

Модераторы: Модераторы, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group