2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу 1, 2, 3  След.
 
 смешение многокомпонентных составов
Сообщение20.04.2018, 07:39 


27/10/09
602
Дамы и Господа!

Возник вопрос об оценках параметров смешения. Предположим, состав $C$ является смесью составов $A$ и $B$ в пропорциях $f$ и $1-f$, при этом $f$ неизвестно. Сложность в том, что составы многокомпонентны, количество компонентов $m>2$. При этом содержания компонентов в составах определены не точно, имеются выборки $X$, $Y$ и $Z$, характеризующие составы $A$, $B$ и $C$ соответственно. Получается, что если считать по одному компоненту, то оценка $f$ получается одна, по другому компоненту другая.
Вопрос первый: как корректно оценить пропорции смешения и оценки составов $A$, $B$ и $C$, задействуя сразу все компоненты? Для простоты пока возьмем, что выборки $X$, $Y$ и $Z$ взяты из многомерных нормально-распределенных случайных величин (потом чуть усложним, добавив логнормальные распределения).
На первый взгляд вопрос простой – считаем средние по $X$ и $Y$ (оценки составов $A$ и $B$) и находим точку на прямой смешения этих средних, максимально близкую к среднему по $Z$ с точки зрения расстояния Махаланобиса, т.е. учитываем ковариационную матрицу. Или методом максимума правдоподобия находим параметры многомерного распределения для $Z$ так, чтобы центр лежал на прямой смешения средних. Эта точка на прямой смешения и будет оценкой состава $C$, т.е. оценку состава $C$ мы получаем с учетом выборок $X$ и $Y$. Но тогда есть возможность получения оценок всех трех составов по всем трем выборкам одновременно, опять же, например, ММП. Результаты получаются разными, иногда очень разными. Как более корректно?
Вопрос второй: как проверить, действительно ли состав $C$ является смесью составов $A$ и $B$?

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение20.04.2018, 20:20 


07/10/15

2400
Одну из концентраций заменяете в соответствии с Вашим ограничением:
$ C_n=1-\sum\limits_{i=1}^{n-1} C_i$,
затем составляете функцию максимального правдоподобия для n-1 неизвестных, ну и решаете.
Для нормального распределения будет проще всего, предполагаю, что всё сведётся к СЛАУ.

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение23.04.2018, 07:11 


27/10/09
602
К сожалению, Ваш ответ абсолютно правильный, настолько же и бесполезный. Вопрос был - нужно ли в такой задаче учитывать все три выборки для оценки состава смеси (есть большое подозрение, что нужно), и, как показать, что смесь действительно является смесью этих двух составов, а не каких то других.

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение23.04.2018, 09:43 


07/10/15

2400
Я просто сразу не понял вашего вопроса, надо подумать ...

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение23.04.2018, 09:51 


27/10/09
602
Извиняюсь, вопрос был действительно длинный, к сожалению, по иначе его задать я на мог

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение23.04.2018, 15:43 


07/10/15

2400
Вот что я надумал: пусть А, B, C - векторы соответствующих концентраций компонентов, f - соотношение составов A и В в смеси С, тогда оценка условной концентрации смеси
$S=\frac{A+f\cdot B}{||A+f\cdot B||_1}$,
где$||\cdot||_1$ - сумма модулей компонент вектора.

Логарифм правдоподобия
$L(f|C)=-k\sum\limits_{i=1}^{N}(S_i-C_i)^T\Sigma^{-1}_C(S_i-C_i)$,
где i - номер наблюдения, N - число наблюдений (для простоты предполагается что для А В и С оно одинаковое), $\Sigma^{-1}_C$ - несмещённая оценка обратной ковариационной матрицы компонентов смеси С.

Так как f меняется в диапазоне от 0 до 1 - я бы не стал утруждаться символьным дифференцированием. Просто можно построить график L(f|C), скажем из 1000 точек и найти максимум. Это и будет оценка максимального правдоподобия для f, при условии, что ковариационные матрицы $\Sigma_C$ и $\Sigma_S$ равны, и компоненты смеси С имеют нормальное совместное распределение.

Пользуясь полученной оценкой f, вычисляем оценку ковариационной матрицы $\Sigma_S$ и сравниваем её с матрицей $\Sigma_C$, как это сделать написано здесь https://vunivere.ru/work70512/page4.

Проверяем компоненты С на соответствие многомерному нормальному распределению.
Если распределение нормальное, ковариационные матрицы существенно различаются - то, с заданной доверительной вероятностью, С не является смесью А и В. Если нет -то оцениваем мощность критерия.
Если распределение не нормальное, то ничего такого сказать нельзя. В этом случае можно попробовать применить нормализующую нелинейную трансформацию, самая популярная - Box-Cox. Ну если нормализовать не получится, то всё сильно усложняется ...

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение27.04.2018, 07:40 


27/10/09
602
Извиняюсь, немного отвлекся на срочные задачи.

Насколько я понял, Вы склоняетесь к варианту оценки средних составов A и В по индивидуальным выборкам, и далее поиску точки на линии их смешения, максимально близкой к среднему по выборке из смеси С с точки зрения расстояния Махаланобиса - самый первый вариант из предложенных. Кстати, если если f изменяется от 0 до 1, то $S=(1-f)\cdot A+f\cdot B$ (f - содержание компонента В в смеси С), в случае же $S=\frac{A+f\cdot B}{||A+f\cdot B||_1}$ (f - отношение содержание компонентов А к В в смеси С), то f изменяется от 0 до бесконечности, что не очень удобно. Тогда простой вопрос - а почему другие варианты хуже? Я предложил три варианта, и есть подозрение, что их набор этим не исчерпывается.

На самом деле я не очень понимаю запись $S=\frac{A+f\cdot B}{||A+f\cdot B||_1}$, поскольку размеры матриц А и В разные - объемы всех трех выборок выборок разные.

Далее, для проверки гипотезы о смеси (что состав С действительно является смесью А и В) Вы предлагаете сравнивать ковариационные матрицы с центрами в среднем С и в рассчитанном S. Чем это лучше сравнения точки S с центром в среднем С с учетом ковариационной матрицы С? Тем более, что он точный, а критерий Бартлетта приблизительный (реально асимптотический, а объемы выборок невелики), и, действительно, крайне чувствителен к отклонению от нормальности.

Да, символьное дифференцирование меня нисколько не пугает.

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение27.04.2018, 11:52 


07/10/15

2400
AndreyL в сообщении #1307811 писал(а):
Кстати, если если f изменяется от 0 до 1, то $S=(1-f)\cdot A+f\cdot B$ (f - содержание компонента В в смеси С), в случае же $S=\frac{A+f\cdot B}{||A+f\cdot B||_1}$ (f - отношение содержание компонентов А к В в смеси С), то f изменяется от 0 до бесконечности, что не очень удобно.


Да, действительно $f$ меняется от нуля до бесконечности. Это моя ошибка, но лишь в диапазоне изменения. Хоть и не удобно, но использовать нужно эту формулу, так как она гарантирует равенство суммы всех концентраций смеси единице. Ваша формула этого не гарантирует, следовательно она не учитывает основное ограничение задачи. В этом и есть ответ на Ваш вопрос - "как учесть сразу все концентрации?".
В Вашем подходе, изначально предлагается считать $f$ по разным компонентам, и как Вы сами понимаете, по каждому из них получается разная оценка. Я же Вам показал как получить наиболее правдоподобную оценку $f$ одновременно учитывая сразу все концентрации.

Так как $f$ меняется до бесконечности, то имеет смысл посчитать и градиент, тем более что Вас это не пугает.
Думаю с этим должно быть понятно.

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение27.04.2018, 12:19 


27/10/09
602
Хорошо, а как быть, если объемы выборок, характеризующих компоненты А, В и С разные? Тогда в $S=\frac{A+f\cdot B}{||A+f\cdot B||_1}$ суммы и в числителе, и в знаменателе не имеют смысла - матрицы разного размера.

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение27.04.2018, 12:30 


07/10/15

2400
AndreyL в сообщении #1307811 писал(а):
Насколько я понял, Вы склоняетесь к варианту оценки средних составов A и В по индивидуальным выборкам, и далее поиску точки на линии их смешения, максимально близкой к среднему по выборке из смеси С с точки зрения расстояния Махаланобиса - самый первый вариант из предложенных.


Вы не правильно поняли, средние для выборок A и B в предложенном подходе нигде не вычисляются. Максимизацию правдоподобия, в данном случае действительно, можно трактовать как минимизацию расстояния Махаланобиса, но не расстояния средних S и С, а среднего расстояния между всеми наблюдениями выборки. Это не одно и тоже. Разница в том, что предложенный Вами вариант, в действительности, не даст оценку ММП, хотя, как приближение - может быть и использован.

Отвечая на другой Ваш вопрос - в предлагаемом подходе, как и было написано сразу, предполагается, что матрицы имеют одинаковый размер. Вообще я предполагал, что каждому наблюдению соответствует концентрации компонента A, концентрации компонента B и концентрации смеси С, а задача в том, чтобы оценить, с какой вероятностью С есть смесь А и B,и каковы тогда истинные концентрации А, В и С, будь они определены без ошибок.

Если у вас некоторые компоненты то "появляются" то "исчезают" и получается разное число столбцов у матриц, то отсутствующим компонентам нужно присвоить нулевые концентрации и число столбцов будет одинаково.

Если у Вас и количество наблюдений неодинаково и поэтому разные числа строк у матриц, то это означает, что Вам даже неизвестно, какие именно наборы концентраций А и В соответствует данным концентрациям смеси С. Если это так, то это намного хуже. К этому случаю, всё написанное мной ранее неприменимо.

-- 27.04.2018, 13:35 --

Хотя в принципе можно к каждой С подобрать наиболее правдоподобные А и B, а всё остальное отбросить

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение27.04.2018, 12:56 


27/10/09
602
Тут, по-моему, некоторое недопонимание, попробую еще раз. Предполагается, что состав С есть смесь составов А и В, при этом составы $m$-мерные, т.е учитывается $m$ компонентов. Истинные значения составов А, В и С неизвестны. Состав А опробован $n_X$ раз, т.е выборка X, характеризующая состав А, имеет размер $n_X \times m$, соответственно выборки Y и Z, характеризующие составы В и С, имеют размеры $n_Y \times m$ и $n_Z \times m$. Предположим (пока), что все три выборки не противоречат нормальным распределениям (каждая со своим центром и своей ковариационной матрицей, т.е. ковариационные матрицы тоже не равны). Флуктуации, приводящие к разбросу содержаний компонентов в выборках, возникли после смешения (в том числе и аналитическая ошибка, но не только). Вот такие исходные данные.

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение27.04.2018, 13:00 


07/10/15

2400
AndreyL в сообщении #1307811 писал(а):
Далее, для проверки гипотезы о смеси (что состав С действительно является смесью А и В) Вы предлагаете сравнивать ковариационные матрицы с центрами в среднем С и в рассчитанном S. Чем это лучше сравнения точки S с центром в среднем С с учетом ковариационной матрицы С? Тем более, что он точный, а критерий Бартлетта приблизительный (реально асимптотический, а объемы выборок невелики), и, действительно, крайне чувствителен к отклонению от нормальности.


А по какому критерию Вы планируете сравнивать многомерные средние, да ещё и с учётом ковариационной матрицы?

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение27.04.2018, 13:09 


27/10/09
602
Andrey_Kireew в сообщении #1307910 писал(а):
А по какому критерию Вы планируете сравнивать многомерные средние, да ещё и с учётом ковариационной матрицы?
В данном случае речь шла не о сравнении двух многомерных средних, а о сравнении выборочного многомерного среднего с теоретическим вектором, это критерий Хотеллинга (например, тут).

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение27.04.2018, 14:01 


07/10/15

2400
Приношу извинения, я рассматривал зависимые выборки. В Вашем случае корректнее рассматривать независимые выборки, так как и число наблюдений разное, и истинные концентрации постоянные. В соответствии одного наблюдения другому содержательного смысла не просматривается.

В этом случае оценка концентрации смеси считается как у Вас, ограничение тут вводить не нужно, так как выборочные средние в сумме не обязаны быть строго равны единице.

Тут всё проще, вычисляется вероятность различия (максимальная доверительная вероятность, при которой различия значимы) $C$ и $S$ при разных $f$. На зависимости $P(f)$ будет минимум - это минимальная вероятность того что $C$ не является смесью $A$ и $B$ при любом значении параметра $f$. Значение $f$ - соответствующее этому минимуму, это значение, при котором достигается минимальная вероятность того, что $C$ не является смесью $A$ и $B$, и его можно трактовать как наиболее правдоподобное значение.

Если при любом $f$ различия не значимы, то нужно будет оценить ещё мощность критерия.

 Профиль  
                  
 
 Re: смешение многокомпонентных составов
Сообщение27.04.2018, 14:16 


27/10/09
602
Но мы опять-же рассматриваем вариант поиска точки на прямой смешения средних, т.е. $S=f \bar{X}+(1-f) \bar {Y}$, причем целевой функцией является $F=(\bar{Z}-S).cov_Z^{-1}.(\bar{Z}-S)$, она зависит только от $f$, поскольку $\bar{X}$, $\bar{Y}$, $\bar{Z}$ и $cov_Z^{-1}$ оценены заранее, до оптимизации $F$.
Я предлагал еще два способа - с оценкой $cov_Z$ методом максимума правдоподобия, и с оценкой всех центров и ковариационных матриц (и параметра смешения) методом МП. Вопрос был - какой метод лучше? Или все три плохие, а лучше совсем другой.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 35 ]  На страницу 1, 2, 3  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group