2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу 1, 2, 3  След.
 
 смешение многокомпонентных составов
Сообщение20.04.2018, 07:39 


27/10/09
602
Дамы и Господа!

Возник вопрос об оценках параметров смешения. Предположим, состав $C$ является смесью составов $A$ и $B$ в пропорциях $f$ и $1-f$, при этом $f$ неизвестно. Сложность в том, что составы многокомпонентны, количество компонентов $m>2$. При этом содержания компонентов в составах определены не точно, имеются выборки $X$, $Y$ и $Z$, характеризующие составы $A$, $B$ и $C$ соответственно. Получается, что если считать по одному компоненту, то оценка $f$ получается одна, по другому компоненту другая.
Вопрос первый: как корректно оценить пропорции смешения и оценки составов $A$, $B$ и $C$, задействуя сразу все компоненты? Для простоты пока возьмем, что выборки $X$, $Y$ и $Z$ взяты из многомерных нормально-распределенных случайных величин (потом чуть усложним, добавив логнормальные распределения).
На первый взгляд вопрос простой – считаем средние по $X$ и $Y$ (оценки составов $A$ и $B$) и находим точку на прямой смешения этих средних, максимально близкую к среднему по $Z$ с точки зрения расстояния Махаланобиса, т.е. учитываем ковариационную матрицу. Или методом максимума правдоподобия находим параметры многомерного распределения для $Z$ так, чтобы центр лежал на прямой смешения средних. Эта точка на прямой смешения и будет оценкой состава $C$, т.е. оценку состава $C$ мы получаем с учетом выборок $X$ и $Y$. Но тогда есть возможность получения оценок всех трех составов по всем трем выборкам одновременно, опять же, например, ММП. Результаты получаются разными, иногда очень разными. Как более корректно?
Вопрос второй: как проверить, действительно ли состав $C$ является смесью составов $A$ и $B$?

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение20.04.2018, 20:20 


07/10/15

2400
Одну из концентраций заменяете в соответствии с Вашим ограничением:
$ C_n=1-\sum\limits_{i=1}^{n-1} C_i$,
затем составляете функцию максимального правдоподобия для n-1 неизвестных, ну и решаете.
Для нормального распределения будет проще всего, предполагаю, что всё сведётся к СЛАУ.

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение23.04.2018, 07:11 


27/10/09
602
К сожалению, Ваш ответ абсолютно правильный, настолько же и бесполезный. Вопрос был - нужно ли в такой задаче учитывать все три выборки для оценки состава смеси (есть большое подозрение, что нужно), и, как показать, что смесь действительно является смесью этих двух составов, а не каких то других.

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение23.04.2018, 09:43 


07/10/15

2400
Я просто сразу не понял вашего вопроса, надо подумать ...

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение23.04.2018, 09:51 


27/10/09
602
Извиняюсь, вопрос был действительно длинный, к сожалению, по иначе его задать я на мог

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение23.04.2018, 15:43 


07/10/15

2400
Вот что я надумал: пусть А, B, C - векторы соответствующих концентраций компонентов, f - соотношение составов A и В в смеси С, тогда оценка условной концентрации смеси
$S=\frac{A+f\cdot B}{||A+f\cdot B||_1}$,
где$||\cdot||_1$ - сумма модулей компонент вектора.

Логарифм правдоподобия
$L(f|C)=-k\sum\limits_{i=1}^{N}(S_i-C_i)^T\Sigma^{-1}_C(S_i-C_i)$,
где i - номер наблюдения, N - число наблюдений (для простоты предполагается что для А В и С оно одинаковое), $\Sigma^{-1}_C$ - несмещённая оценка обратной ковариационной матрицы компонентов смеси С.

Так как f меняется в диапазоне от 0 до 1 - я бы не стал утруждаться символьным дифференцированием. Просто можно построить график L(f|C), скажем из 1000 точек и найти максимум. Это и будет оценка максимального правдоподобия для f, при условии, что ковариационные матрицы $\Sigma_C$ и $\Sigma_S$ равны, и компоненты смеси С имеют нормальное совместное распределение.

Пользуясь полученной оценкой f, вычисляем оценку ковариационной матрицы $\Sigma_S$ и сравниваем её с матрицей $\Sigma_C$, как это сделать написано здесь https://vunivere.ru/work70512/page4.

Проверяем компоненты С на соответствие многомерному нормальному распределению.
Если распределение нормальное, ковариационные матрицы существенно различаются - то, с заданной доверительной вероятностью, С не является смесью А и В. Если нет -то оцениваем мощность критерия.
Если распределение не нормальное, то ничего такого сказать нельзя. В этом случае можно попробовать применить нормализующую нелинейную трансформацию, самая популярная - Box-Cox. Ну если нормализовать не получится, то всё сильно усложняется ...

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение27.04.2018, 07:40 


27/10/09
602
Извиняюсь, немного отвлекся на срочные задачи.

Насколько я понял, Вы склоняетесь к варианту оценки средних составов A и В по индивидуальным выборкам, и далее поиску точки на линии их смешения, максимально близкой к среднему по выборке из смеси С с точки зрения расстояния Махаланобиса - самый первый вариант из предложенных. Кстати, если если f изменяется от 0 до 1, то $S=(1-f)\cdot A+f\cdot B$ (f - содержание компонента В в смеси С), в случае же $S=\frac{A+f\cdot B}{||A+f\cdot B||_1}$ (f - отношение содержание компонентов А к В в смеси С), то f изменяется от 0 до бесконечности, что не очень удобно. Тогда простой вопрос - а почему другие варианты хуже? Я предложил три варианта, и есть подозрение, что их набор этим не исчерпывается.

На самом деле я не очень понимаю запись $S=\frac{A+f\cdot B}{||A+f\cdot B||_1}$, поскольку размеры матриц А и В разные - объемы всех трех выборок выборок разные.

Далее, для проверки гипотезы о смеси (что состав С действительно является смесью А и В) Вы предлагаете сравнивать ковариационные матрицы с центрами в среднем С и в рассчитанном S. Чем это лучше сравнения точки S с центром в среднем С с учетом ковариационной матрицы С? Тем более, что он точный, а критерий Бартлетта приблизительный (реально асимптотический, а объемы выборок невелики), и, действительно, крайне чувствителен к отклонению от нормальности.

Да, символьное дифференцирование меня нисколько не пугает.

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение27.04.2018, 11:52 


07/10/15

2400
AndreyL в сообщении #1307811 писал(а):
Кстати, если если f изменяется от 0 до 1, то $S=(1-f)\cdot A+f\cdot B$ (f - содержание компонента В в смеси С), в случае же $S=\frac{A+f\cdot B}{||A+f\cdot B||_1}$ (f - отношение содержание компонентов А к В в смеси С), то f изменяется от 0 до бесконечности, что не очень удобно.


Да, действительно $f$ меняется от нуля до бесконечности. Это моя ошибка, но лишь в диапазоне изменения. Хоть и не удобно, но использовать нужно эту формулу, так как она гарантирует равенство суммы всех концентраций смеси единице. Ваша формула этого не гарантирует, следовательно она не учитывает основное ограничение задачи. В этом и есть ответ на Ваш вопрос - "как учесть сразу все концентрации?".
В Вашем подходе, изначально предлагается считать $f$ по разным компонентам, и как Вы сами понимаете, по каждому из них получается разная оценка. Я же Вам показал как получить наиболее правдоподобную оценку $f$ одновременно учитывая сразу все концентрации.

Так как $f$ меняется до бесконечности, то имеет смысл посчитать и градиент, тем более что Вас это не пугает.
Думаю с этим должно быть понятно.

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение27.04.2018, 12:19 


27/10/09
602
Хорошо, а как быть, если объемы выборок, характеризующих компоненты А, В и С разные? Тогда в $S=\frac{A+f\cdot B}{||A+f\cdot B||_1}$ суммы и в числителе, и в знаменателе не имеют смысла - матрицы разного размера.

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение27.04.2018, 12:30 


07/10/15

2400
AndreyL в сообщении #1307811 писал(а):
Насколько я понял, Вы склоняетесь к варианту оценки средних составов A и В по индивидуальным выборкам, и далее поиску точки на линии их смешения, максимально близкой к среднему по выборке из смеси С с точки зрения расстояния Махаланобиса - самый первый вариант из предложенных.


Вы не правильно поняли, средние для выборок A и B в предложенном подходе нигде не вычисляются. Максимизацию правдоподобия, в данном случае действительно, можно трактовать как минимизацию расстояния Махаланобиса, но не расстояния средних S и С, а среднего расстояния между всеми наблюдениями выборки. Это не одно и тоже. Разница в том, что предложенный Вами вариант, в действительности, не даст оценку ММП, хотя, как приближение - может быть и использован.

Отвечая на другой Ваш вопрос - в предлагаемом подходе, как и было написано сразу, предполагается, что матрицы имеют одинаковый размер. Вообще я предполагал, что каждому наблюдению соответствует концентрации компонента A, концентрации компонента B и концентрации смеси С, а задача в том, чтобы оценить, с какой вероятностью С есть смесь А и B,и каковы тогда истинные концентрации А, В и С, будь они определены без ошибок.

Если у вас некоторые компоненты то "появляются" то "исчезают" и получается разное число столбцов у матриц, то отсутствующим компонентам нужно присвоить нулевые концентрации и число столбцов будет одинаково.

Если у Вас и количество наблюдений неодинаково и поэтому разные числа строк у матриц, то это означает, что Вам даже неизвестно, какие именно наборы концентраций А и В соответствует данным концентрациям смеси С. Если это так, то это намного хуже. К этому случаю, всё написанное мной ранее неприменимо.

-- 27.04.2018, 13:35 --

Хотя в принципе можно к каждой С подобрать наиболее правдоподобные А и B, а всё остальное отбросить

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение27.04.2018, 12:56 


27/10/09
602
Тут, по-моему, некоторое недопонимание, попробую еще раз. Предполагается, что состав С есть смесь составов А и В, при этом составы $m$-мерные, т.е учитывается $m$ компонентов. Истинные значения составов А, В и С неизвестны. Состав А опробован $n_X$ раз, т.е выборка X, характеризующая состав А, имеет размер $n_X \times m$, соответственно выборки Y и Z, характеризующие составы В и С, имеют размеры $n_Y \times m$ и $n_Z \times m$. Предположим (пока), что все три выборки не противоречат нормальным распределениям (каждая со своим центром и своей ковариационной матрицей, т.е. ковариационные матрицы тоже не равны). Флуктуации, приводящие к разбросу содержаний компонентов в выборках, возникли после смешения (в том числе и аналитическая ошибка, но не только). Вот такие исходные данные.

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение27.04.2018, 13:00 


07/10/15

2400
AndreyL в сообщении #1307811 писал(а):
Далее, для проверки гипотезы о смеси (что состав С действительно является смесью А и В) Вы предлагаете сравнивать ковариационные матрицы с центрами в среднем С и в рассчитанном S. Чем это лучше сравнения точки S с центром в среднем С с учетом ковариационной матрицы С? Тем более, что он точный, а критерий Бартлетта приблизительный (реально асимптотический, а объемы выборок невелики), и, действительно, крайне чувствителен к отклонению от нормальности.


А по какому критерию Вы планируете сравнивать многомерные средние, да ещё и с учётом ковариационной матрицы?

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение27.04.2018, 13:09 


27/10/09
602
Andrey_Kireew в сообщении #1307910 писал(а):
А по какому критерию Вы планируете сравнивать многомерные средние, да ещё и с учётом ковариационной матрицы?
В данном случае речь шла не о сравнении двух многомерных средних, а о сравнении выборочного многомерного среднего с теоретическим вектором, это критерий Хотеллинга (например, тут).

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение27.04.2018, 14:01 


07/10/15

2400
Приношу извинения, я рассматривал зависимые выборки. В Вашем случае корректнее рассматривать независимые выборки, так как и число наблюдений разное, и истинные концентрации постоянные. В соответствии одного наблюдения другому содержательного смысла не просматривается.

В этом случае оценка концентрации смеси считается как у Вас, ограничение тут вводить не нужно, так как выборочные средние в сумме не обязаны быть строго равны единице.

Тут всё проще, вычисляется вероятность различия (максимальная доверительная вероятность, при которой различия значимы) $C$ и $S$ при разных $f$. На зависимости $P(f)$ будет минимум - это минимальная вероятность того что $C$ не является смесью $A$ и $B$ при любом значении параметра $f$. Значение $f$ - соответствующее этому минимуму, это значение, при котором достигается минимальная вероятность того, что $C$ не является смесью $A$ и $B$, и его можно трактовать как наиболее правдоподобное значение.

Если при любом $f$ различия не значимы, то нужно будет оценить ещё мощность критерия.

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение27.04.2018, 14:16 


27/10/09
602
Но мы опять-же рассматриваем вариант поиска точки на прямой смешения средних, т.е. $S=f \bar{X}+(1-f) \bar {Y}$, причем целевой функцией является $F=(\bar{Z}-S).cov_Z^{-1}.(\bar{Z}-S)$, она зависит только от $f$, поскольку $\bar{X}$, $\bar{Y}$, $\bar{Z}$ и $cov_Z^{-1}$ оценены заранее, до оптимизации $F$.
Я предлагал еще два способа - с оценкой $cov_Z$ методом максимума правдоподобия, и с оценкой всех центров и ковариационных матриц (и параметра смешения) методом МП. Вопрос был - какой метод лучше? Или все три плохие, а лучше совсем другой.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 35 ]  На страницу 1, 2, 3  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: tolstopuz


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group