2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Выборки, "энтропия", "информация"?
Сообщение10.09.2007, 17:20 


16/05/07
172
Москва
Есть таблица с данными, со следующими столбцами:
x, d, T; g1(0), g2(0), g1(1), g2(1)

i1) Считается, что стоблцы: x, d, T - ключевые.
i2) Числа g1(0), g2(0), g1(1), g1(2) - целые случайные числа (в пределах [0,5]).
i3) x - экспертная оценка на вероятность того, что g1(0)+g2(0) > g1(1)+g2(1);
i4) d - экспертная оценка на вероятность того, что g1(0)+g2(0) < g1(1)+g2(1);
i5) T - экспертная оценка на вероятность того, что g1(0)+g2(0)+g1(1)+g2(1) <= 3.

Рассматривается функция распределения, зависящая от параметров: P{ g1(0) = i1 & g2(0) = i2 & g1(1) = i3 & g2(1) = i4 }(x,d,T).

И есть много-много проблем, которые не понятно как решать:
1) Как разбить все данные на группы (и найти группу для заданных (x0,d0,T0)), которые потом уже можно усреднить и найти функцию распределения для группы? Нужно как-то соизмерять удаление от точки центра группы (x0,d0,T0): |x-x0|+|d-d0|+|T-T0| и кол-во элементов в группе.
2) Что делать с малыми выборками? Вообще говоря, есть основания считать, что зависимость P{g1(0) = i1 & g2(0) = i2 & g1(1) = i3 & g2(1) = i4}(x,d,T) непрерывная, а, следовательно, после группировки можно как-то провести процедуру сглаживания P{g1(0) = i1 & g2(0) = i2 & g1(1) = i3 & g2(1) = i4}(x,d,T), которая не должна ухудшить приближение к точному P*{g1(0) = i1 & g2(0) = i2 & g1(1) = i3 & g2(1) = i4}(x,d,T).
3) Поскольку (g1(0), g2(0), g1(1), g2(1)) можно считать независимыми, то хотелось бы факторизовать P{g1(0) = i1 & g2(0) = i2 & g1(1) = i3 & g2(1) = i4} = P1{g1(0) = i1} * P2{g2(0) = i2} * P3{ g1(1) = i3} * P4{ g2(1) = i4 } (все зависит от (x,d,T)).
4) Можно ли проверить то, что число степеней свободы действительно 3: x, d, T? А ведь можно, поскольку у нас (x,d,T) - не просто параметры, а вероятности, которые характеризуют группу.

Хочется иметь что-то вроде функций "энтропии", "информации" или чего-нибудь подобного.

Можно ли где-нибудь найти книжки из большой науки на эту тему?
Какой раздел матстатистики может изучать эти проблемы?

 Профиль  
                  
 
 
Сообщение12.09.2007, 04:30 
Экс-модератор
Аватара пользователя


30/11/06
1265
Думаю, уместнее в «Математика» (а не ДТ).

 Профиль  
                  
 
 
Сообщение12.09.2007, 12:56 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Факторизацию тут применять не стоит, так как Ваши условия i3-i5 задают зависимость случайных величин.

Я бы сказал, что эту задачу можно решить обычными методами, хотя и с привлечением некоторых дополнительных соображений. Прежде всего, нам надо ввести некоторое априорное распределение вероятностей (без знания какой-либо экспертной информации). Элементарным исходом будем называть четверку чисел $\omega=(g_1(0), g_2(0), g_1(1), g_2(1))$. Всего у нас имеется $6^4$ исходов. Будем считать их априорно равновероятными.

Рассмотрим для начала только условия i3-i4 (рассматривать их отдельно нет смысла, так как они связаны). Фактически, Вы имеете три события, образующие разбиение всего пространства:
$A=\{g_1(0)+g_2(0)>g_1(1)+g_2(1)\}$, $P(A)=x$;
$B=\{g_1(0)+g_2(0)<g_1(1)+g_2(1)\}$, $P(B)=d$;
$C=\{g_1(0)+g_2(0)=g_1(1)+g_2(1)\}$, $P(C)=1-x-d$.
Тем самым все исходы разбиваются на три группы, причем можно подсчитать количества исходов в группах $|A|$, $|B|$ и $|C|$.
Поскольку все исходы изначально предполагаются равновероятными, то и исходы внутри каждой из этих групп естественно считать равновероятными. Тем самым Вы точно можете вычислить их вероятности. Например, для всех исходов $\omega\in A$ будет $P(\omega)=x/|A|$ ну и так далее.

Теперь добавим условие i5. Введем событие $D=\{g_1(0)+g_2(0)+g_1(1)+g_2(1) \le 3\}$ и его дополнение $\overline{D}$, причем $P(D)=T$. Теперь мы уже имеем разбиение всего пространства на шесть областей: $AD$, $BD$, $CD$, $A\overline{D}$, $B\overline{D}$ и $C\overline{D}$. Проблема заключается в том, что вероятности этих событий неизвестны. Но если предположить дополнительно, что событие $D$ независимо с тремя предыдущими, то их можно найти, перемножая вероятности, и далее решить задачу так же, как и ранее.

Смысл последнего предположения заключается в том, что пара $D : \overline{D}$ разбивает каждое из множеств $A$, $B$ и $C$ на две части. Можно ли утверждать, что соотношения между этими частями одинаковы во всех трех случаях и составляют $T : 1-T$, как и во всем пространстве? Если да, тогда предположение осмысленно. Если нет, то хорошо бы иметь дополнительную экспертную информацию, которая бы характеризовала статистические зависимости между указанными событиями.

 Профиль  
                  
 
 
Сообщение13.09.2007, 16:47 


16/05/07
172
Москва
Спасибо за помощь, но смысл задачи был немного в другом.

PAV писал(а):
Факторизацию тут применять не стоит, так как Ваши условия i3-i5 задают зависимость случайных величин.


Независимость известна априори.

PAV писал(а):
Я бы сказал, что эту задачу можно решить обычными методами, хотя и с привлечением некоторых дополнительных соображений. Прежде всего, нам надо ввести некоторое априорное распределение вероятностей (без знания какой-либо экспертной информации). Элементарным исходом будем называть четверку чисел $\omega=(g_1(0), g_2(0), g_1(1), g_2(1))$. Всего у нас имеется $6^4$ исходов. Будем считать их априорно равновероятными.


Этого сделать нельзя, потому что тогда теряется смысл задачи.

Задачи 1-3 хотелось бы решить без условий i3-i5. А i3-i5 использовать, в основном, для 4) (и для более точного решения 1-3, потому как часть информации о распределении хранится и в x,d,T).

 Профиль  
                  
 
 
Сообщение13.09.2007, 16:50 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Андрей1 писал(а):
Независимость известна априори.


При появлении новой экспертной информации независимость уже теряется, даже если изначально она была.

Андрей1 писал(а):
Этого сделать нельзя, потому что тогда теряется смысл задачи.


Без априорного распределения, мне кажется, что задачу не решить, поскольку если даже ограничиться ситуацией, когда задача решается точно, то для разных априорных распределений результат будет разным.

А почему смысл задачи теряется?

 Профиль  
                  
 
 
Сообщение14.09.2007, 11:55 


16/05/07
172
Москва
Задачу можно переформулировать так. Есть 4-и независимых дискретных процесса, которые группируются как (1,2), (3,4) (хотя (1,2) и (3,4) на самом деле зависимы, но для начала об этом можно забыть), которые выдают ограниченные дискретные значения. P_i({a_i}), где a_i - это набор дискретных признаков.
Значения этих признаков - не известны, но есть такое наблюдение, что общая функция распределения зависит от 3-х параметров (x,d,T), о которых говорится в условии. Таким образом, нужно разбить множество всех данных на подмножества в пространстве (x,d,T) так, чтобы (1) в каждом подмножестве можно было бы провести процедуру усреднения; (2) если данных в подмножестве недостаточно, можно было бы сгладить параметры функции распределения в подмножестве, используя соседние подмножества. (3) при группировке использовать то, что параметры (x,d,T) - это указанные вероятности.

Думаю использовать методы классификации из теории машинного обучения. Но может и в прикладной статистике есть методы решения подобных задач?

Добавлено спустя 3 минуты 50 секунд:

PAV писал(а):
Андрей1 писал(а):
Этого сделать нельзя, потому что тогда теряется смысл задачи.


Без априорного распределения, мне кажется, что задачу не решить, поскольку если даже ограничиться ситуацией, когда задача решается точно, то для разных априорных распределений результат будет разным.

А почему смысл задачи теряется?


Есть огромный набор данных. Все распределения нужно брать из них (не забывая о малых выборках :)).

 Профиль  
                  
 
 
Сообщение18.09.2007, 15:02 


16/05/07
172
Москва
PAV писал(а):
А почему смысл задачи теряется?

Потому что цель задачи - построить функцию распределения, зависящую от указанных параметров, с минимальной ошибкой.

Пока в голову приходит только это:
1) Использовать линейную зависимость функции ф.р. от параметров в окрестности группы с известным значением функции распределения.
2) Использовать статистику Пирсона.
3) Минимизировать сумму \sum{\chi_{x_n,d_n,T_n}^2} для выбранных групп.

 Профиль  
                  
 
 
Сообщение28.09.2007, 09:11 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Насколько много имеется обучающего материала?

 Профиль  
                  
 
 
Сообщение28.09.2007, 12:02 


16/05/07
172
Москва
PAV писал(а):
Насколько много имеется обучающего материала?

Более 7000 строк и будет еще :).

Добавлено спустя 7 минут 29 секунд:

Какие методы классификации из теории машинного обучения (особенно те, которые уже реализованы: http://www.cs.waikato.ac.nz/%7Eml/weka/, http://rapid-i.com/) тут можно попробовать?

В рамках этой задачи есть еще условия и проблемы. Например:
i6) В любой точке (x,d,T) факторизованные части P{ g1(0) = i1 & g2(0) = i2 & g1(1) = i3 & g2(1) = i4 }(x,d,T) :: Pi{gN(0) = iN}(x,d,T) имеют только один максимум по iN.
5) Можно ввести некоторые другие ключевые параметры (W1_0(x,d,T),W2_0(x,d,T),T) (есть основания считать, что классификаци по ним будет лучше) и хотелось бы количественно проверить, что эта классификация по этим параметрам будет лучше.

 Профиль  
                  
 
 
Сообщение28.09.2007, 13:33 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Андрей1 писал(а):
Более 7000 строк и будет еще


Это не очень густо. Давайте посчитаем. Пусть для простоты мы хотим оценить распределение только одной переменной по известным параметрам $(x,d,T)$. Чтобы хоть как-нибудь осмысленно оценить вероятность одного события, нужно хотя бы десяток наблюдений, хотя по-хорошему это все равно мало. Но у нас ведь переменная принимает 6 значений, поэтому число наблюдений должно быть порядка 50-100. Таким образом, все множество значений тройки параметров $(x,d,T)$ следует разбить не более чем на 70 областей примерно. В каждой области нужно оценить распределение переменной, после чего можно провести какое-то сглаживание.

Если бы область значений представляла собой трехмерный куб $[0,1]^3$ и мы решили бы по-простому разбить его на кубики меньшего размера, то каждую сторону следует разбивать примерно на 4 куска, пять уже будет много.

А теперь вспоминаем, что у нас четыре случайных величины. Если бы мы в каждой области оценивали распределение каждой независимо от остальных, то было бы хорошо. Но я все-таки сильно не уверен, что внутри каждой из этих областей величины можно считать независимыми. А оценивать совместное распределение нереально, так как слишком много возможных значений.

 Профиль  
                  
 
 
Сообщение29.09.2007, 21:55 


16/05/07
172
Москва
PAV писал(а):
Андрей1 писал(а):
Более 7000 строк и будет еще

Это не очень густо. Давайте посчитаем. ...


1) Уже есть некоторое решение задачи, которое является удовлетворительным *для имеющихся данных*. С существующим решением проблема лишь в том, что для него нет строгого обоснования. И не ясно как его улучшать.
2) Данных для оценки ф.р. для группы - достаточно.
3) Известно, что каждая факторизованная ф.р. - примерно пуассоновская.

 Профиль  
                  
 
 
Сообщение01.10.2007, 09:49 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Можно еще поступать примерно так. Не будем делить область значений параметров $(x,d,T)$ на части. Пусть требуется оценить распределение в начальной точке $(x_0,d_0,T_0)$. Будем оценивать его по имеющимся наблюдениям, начиная от самых близких к этой точке и до далеких. Причем каждое наблюдение можно брать с весом, убывающим при удалении от искомой точки. Решение при этом автоматически должно получиться непрерывным. Более того, можно эвристически оценивать надежность оценки распределения в каждой точке по тому, насколько много оказалось близких к ней наблюдений.

Со строгими обоснованиями тут не очень будет. Строгие обоснования возможны только при достаточно полном задании математической модели всего, что у Вас есть. Ведь теоретически может так оказаться, к примеру, что экспертные оценки вероятностей на самом деле никуда не годятся и величины $(x,d,T)$ реально мало информации несут о распределении. Модель в этом случае должна нарушаться. Вообще задание модели требует указания довольно много теоретической информации о явлении, а на практике с этим обычно проблемы. Я в самом начале попробовал вывести что-то достаточно строго, предполагая, что экспертные оценки вероятности на самом деле - точные значения, а также что известно априорное распределение переменных. Но Вам эти привнесенные соображения не понравились. Но без них строгих обоснований вряд ли удастся получить.

По поводу третьего пункта я не очень понял. Что Вы называете факторизованной ф.р.?

 Профиль  
                  
 
 
Сообщение01.10.2007, 11:45 


16/05/07
172
Москва
PAV писал(а):
Можно еще поступать примерно так. Не будем делить область значений параметров $(x,d,T)$ на части...


Так сейчас и делается. Однако, если реальное число степеней свободы < 3, то группировка событий выглядит более приемлемой. Кроме того, (1) группировка позволит увеличить скорость работы программы: группировку можно провести только один раз; (2) через процедуру группировки можно сделать непрерывность распределения; (3) группировка нужна для другого алгоритма.

PAV писал(а):
Решение при этом автоматически должно получиться непрерывным.


Этот вопрос не очевиден (непрерывность по начальной точке (x0,d0,T0)? )...

PAV писал(а):
Более того, можно эвристически оценивать надежность оценки распределения в каждой точке по тому, насколько много оказалось близких к ней наблюдений.


Эвристика - это уже пройденный этап. Хотелось бы найти точное статистическое или machine learning решение.

PAV писал(а):
... Строгие обоснования возможны только при достаточно полном задании математической модели всего, что у Вас есть.


Как только задача будет принципиально решена, ничто не будет мешать задать полное описание модели (интересно точное решение для выбранной модели, которая не противоречит известным и достоверным фактам).

PAV писал(а):
Ведь теоретически может так оказаться, к примеру, что экспертные оценки вероятностей на самом деле никуда не годятся и величины $(x,d,T)$ реально мало информации несут о распределении. Модель в этом случае должна нарушаться.


1) Ничто не мешает оценивать качество вероятностей $(x,d,T)$.
2) Практика говорит о том, что их точность не хуже ~ 5%.
3) Группировка как раз и нужна для того, чтобы уменьшить влияние грубых ошибок в $(x,d,T)$.

PAV писал(а):
Вообще задание модели требует указания довольно много теоретической информации о явлении, а на практике с этим обычно проблемы.


С информацией проблем нет. Вопрос - какая нужна информация, чтобы получить удовлетворительное решение.

PAV писал(а):
Я в самом начале попробовал вывести что-то достаточно строго, предполагая, что экспертные оценки вероятности на самом деле - точные значения, а также что известно априорное распределение переменных. Но Вам эти привнесенные соображения не понравились. Но без них строгих обоснований вряд ли удастся получить.


Насколько я знаю, прорыв в применении machine learning как раз и связан с тем, что для построения удовлетворительных решений нужны только данные + некоторые общие и важные свойства рассматриваемой системы (как и учит классик жанра - В.Вапник в своем фундаментальном труде :)).

PAV писал(а):
По поводу третьего пункта я не очень понял. Что Вы называете факторизованной ф.р.?


прошу прощение. То есть, хотел сказать "каждая компонента факторизованной ф.р. - примерно пуассоновская".
Факторизованная ф.р - ф.р. построенная из ф.р. для компонет: g1(0), g2(0), g1(1), g2(1) (например, если считать их независимыми, то будут соответствующие свертки ф.р.).
Да, и еще можно добавить, что x,d,T можно моделировать как пуассоновские величины.

 Профиль  
                  
 
 
Сообщение04.10.2007, 10:52 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Если говорить про классические результаты Вапника - Червоненкиса (связанные с VC-размерностью), то мне кажется, что они вряд ли подходят к этому случаю. Я сам, правда, глубоко в эту теорию не вникал. Но базовые результаты выглядят примерно так. Во-первых, рассматривается задача классификации. Предполагается, что некоторый случайный эксперимент порождает объект, у которого есть некоторые наблюдаемые признаки и номер класса, которому он принадлежит. Мы рассматриваем некоторый класс H решающих функций, которые по признакам пытаются восстановить номер класса. Что нам хочется - это выбрать в этом классе такое решающее правило, которое дает минимальную теоретическую вероятность ошибки (при этом никто не гарантирует, что эта вероятность будет хоть сколько-нибудь маленькой!). Что мы реально (теоретически) можем - это найти такое правило, которое дает минимальную ошибку на обучающих данных. Результат говорит, что если VC-размерность этого множества решающих правил конечна, то можно указать такое минимально требуемое число обучающих данных, при котором отклонение ошибки на найденном правиле от ошибки на "лучшем" с заданной вероятностью отличается не более чем на заданную величину. Но все это довольно сильно непрактические результаты, оценки сильно завышены, на практике обычно столько данных получить нереально.

Можно посмотреть на результаты обычной статистики, но и тут я сходу не вижу подходящей постановки задачи. Допустим, мы зафиксировали некоторую область значений параметров. Допустим для простоты, что мы хотим в этой области оценить вероятность некоторого события. Это классическая задача, ответ хорошо известен, оценка дается частотой, причем можно указать и в некотором смысле границы для вероятности, тем более точные, чем больше данных попало в эту область.

Но с другой стороны, если предположить, что есть некоторая истинная вероятность в каждой точке пространства признаков, то мы ведь оценили по сути ее среднее в этой самой области. Причем по неизвестно какой мере. Мы имеем что-то похожее на обратную задачу к интегральному преобразованию: по значениям некоторого числа средних оценить саму функцию. Может быть, такие задачи изучаются в функциональном анализе, но я тут ничего конкретного подсказать не могу.

Вообще мы тут имеем достаточно естественный trade-off. С одной стороны, чем больший размер областей мы возьмем, тем больше туда попадет обучающих данных и тем точнее в этой области можно оценить неизвестное распределение. Но с другой стороны, при этом усреднение истинной вероятности производится по большей области, поэтому восстановить ее можно с меньшей точностью.

Возможно, где-то такая задача рассматривалась. Можно поискать что-то похожее.

Вообще я бы советовал почитать разные статьи и доклады на конференциях с целью поискать похожие постановки задач.

Можно еще посмотреть книгу Statistical analysis with missing data либо что-то похожее.

 Профиль  
                  
 
 
Сообщение05.10.2007, 12:36 


16/05/07
172
Москва
PAV писал(а):
Если говорить про классические результаты Вапника - Червоненкиса (связанные с VC-размерностью), то мне кажется, что они вряд ли подходят к этому случаю. Я сам, правда, глубоко в эту теорию не вникал. Но базовые результаты выглядят примерно так. Во-первых, рассматривается задача классификации. Предполагается, что некоторый случайный эксперимент порождает объект, у которого есть некоторые наблюдаемые признаки и номер класса, которому он принадлежит. Мы рассматриваем некоторый класс H решающих функций, которые по признакам пытаются восстановить номер класса. Что нам хочется - это выбрать в этом классе такое решающее правило, которое дает минимальную теоретическую вероятность ошибки (при этом никто не гарантирует, что эта вероятность будет хоть сколько-нибудь маленькой!). Что мы реально (теоретически) можем - это найти такое правило, которое дает минимальную ошибку на обучающих данных. Результат говорит, что если VC-размерность этого множества решающих правил конечна, то можно указать такое минимально требуемое число обучающих данных, при котором отклонение ошибки на найденном правиле от ошибки на "лучшем" с заданной вероятностью отличается не более чем на заданную величину. Но все это довольно сильно непрактические результаты, оценки сильно завышены, на практике обычно столько данных получить нереально.


Под трудом В.Вапника я понимал его классическую книгу "Statistical Learning Theory" (которая является моей настольной книгой :)).

Интерес к этой теории как раз и связан с тем, что она имеет очень широкое применение в практике (я уже давал ссылки на зрелые open source библиотеки). Конечно, при этом, на последнем этапе применения, делаются некоторые предположения...

PAV писал(а):
Можно посмотреть на результаты обычной статистики, но и тут я сходу не вижу подходящей постановки задачи. Допустим, мы зафиксировали некоторую область значений параметров. Допустим для простоты, что мы хотим в этой области оценить вероятность некоторого события. Это классическая задача, ответ хорошо известен, оценка дается частотой, причем можно указать и в некотором смысле границы для вероятности, тем более точные, чем больше данных попало в эту область.

Но с другой стороны, если предположить, что есть некоторая истинная вероятность в каждой точке пространства признаков, то мы ведь оценили по сути ее среднее в этой самой области. Причем по неизвестно какой мере. Мы имеем что-то похожее на обратную задачу к интегральному преобразованию: по значениям некоторого числа средних оценить саму функцию...


Да, но нам нужна не точная функция, а именно это среднее (для группы) - наиболее точное среднее для всех возможных классификаций.

PAV писал(а):
...
Возможно, где-то такая задача рассматривалась. Можно поискать что-то похожее.

Вообще я бы советовал почитать разные статьи и доклады на конференциях с целью поискать похожие постановки задач.


Я поэтому и обращаюсь на форум, на случай, если кто-нибудь знает, где можно об этом почитать :).

PAV писал(а):
Можно еще посмотреть книгу Statistical analysis with missing data либо что-то похожее.


Спасибо, буду искать.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 17 ]  На страницу 1, 2  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group