нечеткая классификация

AndreyL · 24.09.2020, 16:06

Возник вопрос, похоже, по Байесовской стратегии.

Есть много шаров, разделенных на группы (предположим, $n$ групп), каждый шар характеризуется некоторым набором чисел (для простоты, химический анализ шара). Распределение этих анализов в каждой группе аппроксимировано своими распределениями с плотностями $f_i \left( X \right)$ , где $X$ - вектор результатов анализа. Поля анализов разных групп могут частично перекрываться. Есть несколько корзин (предположим, $m$ корзин), в которых находятся шары из разных групп, и есть таблица $B$ размера $n \times m$ , в которой записано, бывают ли шары конкретной группы в конкретной корзине, или не бывают, т.е. если шары $i$ -ой группы имеются в $j$ -ой корзине, то $B_{ij}=1$ , если шары $i$ -ой группы не бывают в $j$ -ой корзине, то $B_{ij}=0$ .
Есть шар с анализом $X$ . Для каждой $i$ -ой группы можем посчитать условную вероятность такого анализа, если шар принадлежит этой группе $f_i \left( X \right)$ . Как теперь посчитать вероятность того, что шар выпал из конкретной корзины? Основной вопрос в том, нужно ли нормировать строки матрицы $B$ на единицу? Суммы строк могут быть разными, поскольку шары конкретной группы могут лежать только в одной корзине, могут в нескольких, а могут и во всех сразу.

svv · 24.09.2020, 16:36

AndreyL в сообщении #1484471 писал(а):

есть таблица $B$ размера $n \times m$ , в которой записано, бывают ли шары конкретной группы в конкретной корзине, или не бывают, т.е. если шары $i$ -ой группы имеются в $j$ -ой корзине, то $B_{ij}=1$ , если шары $i$ -ой группы не бывают в $j$ -ой корзине, то $B_{ij}=0$

А можно ли «усовершенствовать» эту таблицу до таблицы $C$ , где $C_{ij}$ (вещественное число) равно вероятности шара $i$ -й группы попасть в $j$ -ю корзину? Как вариант, эти вероятности равны просто $\frac 1{k_i}$ , где $k_i$ — число разрешённых корзин для шара $i$ -й группы.

Тогда: зная анализ $X$ , Вы найдёте вероятность шара принадлежать $i$ -й группе. Зная группу, Вы знаете вероятность шара оказаться в $j$ -й корзине. Наверное, этого достаточно, чтобы по анализу $X$ найти вероятность шара оказаться в $j$ -й корзине? (Я в этом абсолютно не разбираюсь, но мне кажется, надо просто перемножить две матрицы.)

AndreyL · 24.09.2020, 16:50

svv в сообщении #1484473 писал(а):

AndreyL в сообщении #1484471 писал(а):

А можно ли «усовершенствовать» эту таблицу до таблицы $C$ , где $C_{ij}$ (вещественное число) равно вероятности шара $i$ -й группы попасть в $j$ -ю корзину? Как вариант, эти вероятности равны просто $\frac 1{k_i}$ , где $k_i$ — число разрешённых корзин для шара $i$ -й группы.

В этом и был вопрос - конечно, это сделать можно, только нужно ли? У меня нет четкого обоснования ни необходимости нормировки, ни ее ошибочности. И еще - а так ли нужно нормировать? Может быть нормировать нужно не строки, а столбцы, т.е. вероятность того, что в корзине лежат те шары, которые в ней вообще могут лежать равна 1, а не строки, т.е. вероятность того, что шар конкретной группы лежит хоть в какой-то корзине.

svv · 24.09.2020, 17:15

Пусть для простоты у нас имеется конечное число возможных результатов анализа. Пусть элементы матрицы $(A_{\ell i})$ равны вероятности того, что шар с $\ell$ -м результатом анализа окажется в $i$ -й группе. Элементы матрицы $(C_{ij})$ равны вероятности того, что шар $i$ -й группы окажется в $j$ -й корзине. Тогда элементы $M_{\ell j}$ матрицы $M=AC$ будут равны вероятности того, что шар с $\ell$ -м анализом окажется в $j$ -й корзине.

Сумма элементов каждой строки матрицы $A$ равна $1$ . Сумма элементов каждой строки матрицы $C$ тоже равна $1$ . (Просто как сумма вероятностей элементарных исходов соответствующих испытаний.) Тогда сумма элементов $\ell$ -й строки матрицы $M$ :
$\sum\limits_j M_{\ell j}=\sum\limits_{j,i} A_{\ell i}C_{ij}=\sum\limits_{i} A_{\ell i}\sum\limits_j C_{ij}=\sum\limits_{i} A_{\ell i}\cdot 1=1$ ,
и дополнительно ничего нормировать не надо.

AndreyL · 25.09.2020, 07:01

Это ясно, но почему матрица $(C_{ij})$ нормируется именно по строкам? Можно взять матрицу $(G_{ij})$ нормированную по столбцам. Элементами матрицы $(G_{ij})$ будут вероятности того, что в $j$ -й корзине будет шар $i$ -й группы. Результат получается разный. Причем вариант с матрицей $(G_{ij})$ при моделировании дает меньшую ошибку, хотя и не на много.

Моделирование делалось так: есть вектор-столбец $(R_l)$ с истинными номерами корзин, откуда взят $\ell$ -й шар. Матрица $(Q_{lj})$ состоит из 0 и 1, 1 если $\ell$ -й шар взят из $j$ -й корзины, 0 если из другой, в каждой строке только одна единичка. Есть матрица $(B_{ij})$ с единичками и нолями (1 если шары $i$ -й группы могут быть в $j$ -й корзине, 0 если не могут). Есть набор распределений $d_i$ с плотностями $f_i \left( X \right)$ для каждой группы. Зная, что $\ell$ -й шар взят из $(R_l)$ -й корзины случайным образом выбираем возможную группу (пусть $j$ -ю) и моделируем случайный вектор в соответствии с распределением $d_i$ - это будет выборка. Далее считаем матрицу $(A_{\ell i})$ , в которой элементы равны вероятности того, что шар с $\ell$ -м результатом анализа окажется в $i$ -й группе. Сравнение делается как $\parallel Q-AC \parallel$ и $\parallel Q-(AG)_{norm} \parallel$ , где $\parallel . \parallel$ - евклидова норма матрицы, индекс $(AG)_{norm}$ означает, что матрица $(AG)_{norm}$ нормирована по строкам.

AndreyL · 25.09.2020, 10:22

Еще. Если шар выпал из $j$ -й корзины, то вероятность, что он будет принадлежать $i$ -й группе как раз $\frac{B_{ij}}{\sum\limits_{k}B_{kj}}$

svv · 27.09.2020, 14:50

Многие системы можно описать такой моделью. Ящик имеет $m$ входов и $n$ выходов. Каждый шар поступает на один из входов и оказывается на одном из выходов. При этом существует определённая вероятность $a_{ij}$ того, что шар с $i$ -го входа попадёт на $j$ -й выход. Вероятности $a_{ij}$ определяются только конструкцией ящика и не зависят от вероятностей шара попасть на определённый вход. Мы записываем их в виде матрицы $m\times n$ .

(Оффтоп)

Я привык к стандарту, когда входы соответствуют столбцам матрицы, а выходы — строкам, но подстраиваюсь под Ваши определения, имею в виду матрицу $B$ . Мне хотелось бы транспонировать все матрицы, о которых я говорил.

Соединим выходы этого ящика со входами второго ящика (с $n$ входами и $p$ выходами и матрицей переходов $C$ ). Оба ящика вместе можно рассматривать как один составной. Пусть шар поступает на его $i$ -й вход. Вероятность того, что шар окажется на $k$ -м выходе, по формуле полной вероятности (Ширяев, с.36) равна $\sum\limits_{j=1}^n a_{ij}c_{jk}$ . То есть матрица составного ящика равна $AC$ . Обращаю внимание, что этот результат не получится, если элементы $c_{jk}$ имеют смысл вероятности того, что шар, оказавшийся на $k$ -м выходе, попал туда с $j$ -го входа. Не любые совместимые по размерам матрицы имеет смысл перемножать.

С этой точки зрения произведение $AG$ выглядит малоосмысленным. Непонятно, что оно выражает.

Более того, рассмотрим ящик с двумя входами и двумя выходами и матрицей $C=\begin{bmatrix}0.5&0.5\\0.5&0.5\end{bmatrix}$ . Чему равна матрица вероятностей $G$ того, что шар, попавший на $k$ -й выход, пришёл на $j$ -й вход? Ответ: неизвестно чему. Эти вероятности зависят не только от ящика, но и от вероятностей поступления шара на определённый вход. (Например, шары вообще могут приходить только на один вход.) Важно, исходя из задачи, определиться с тем, какие вероятности, $C$ или $G$ , определяются только ящиком и не зависят от «поступления». От этого зависят и результаты моделирования, и соответствие модели явлению.

AndreyL · 04.10.2020, 09:27

Извиняюсь, вынужден был отвлечься.

А можно ли оценить матрицу перехода, имея обучающую выборку? Предположим имеется $L$ шаров, известно, в каких корзинах они лежат и к каким группам принадлежат, т.е. известны матрица $A_{li}$ и матрица $M_{lj}$ , причем матрица $M_{lj}$ состоит из нулей и единичек, в каждой строке одна и только одна единичка. Тогда, если составить целевую функцию, то элементы матрицы перехода будут найдены как решение оптимизационной задачи. Только вопрос, как корректно составить целевую функцию?
Самое простое, это в матрице $AC$ для каждой строки найти максимальное значение, его установить в единицу, остальные занулить. Целевой функцией будет сумма абсолютных разностей этой новой матрицы и известной матрицы $M_{lj}$ . Но тогда может получится, что, предположим утрированно, вероятность того, что шар взят из первой корзины 49%, а из второй 51%, на самом деле шар лежит в первой корзине, т.е. дискретизация изменила почти правильный результат на совсем неправильный.
Можно ли здесь корректно составить целевую функцию?

Научный форум dxdy

нечеткая классификация