Регрессия на главные компоненты для анализа драгметаллов

McConst · 17.01.2020, 01:41

Добрый день.
Занимаюсь спектральным анализом драгметаллов в атомобильных катализаторах. Раньше для расчетов пользовался линейной зависимостью между интенсивностями аналитических линии и концентрацией элемента - множественный МНК. Пару лет назад наткнулся на сайт Российского хемометрического общества, гдеочень наглядно показаны преимущества калибровки не по самим пикам, которые могут быть скоррелированы, а через разложение спектральной матрицы на Главные компоненты (Principal Components).
Я реализовал алгоритм регрессии на главные компоненты в том виде, как он описывается в хемометрической литературе и столкнулся с одной практической проблемой при расчетах концентрации для спектров с бедным содержанием драгметаллов.
При классическом вычислении концентрации по интенсивности линий концентрация получается положительной величиной. При анализе методом регрессии на главные компоненты пропорциональная зависимость вычисляется между матрицей счетов (Scores) и вектором откликов. Так как разложение на Главные компоненты выполняется через центрирование, то нулевые счета соответствуют среднему спектру стандартных образцов с ненулевой концентрацией. Поэтому для спектров с маленьким содержанием драгметаллов соответствуют вполне себе ненулевые счета помноженные на ± ошибку коэффициента регрессии.
С практической стороны вопроса - мы расплачиваемся с клиентами за найденные драгметаллы. Если содержание в пробе хорошее, то ошибка в ту или иную сторону нивелируется за счет накопления статистики.

Зато если содержание драгметаллов бедное, то в отличие от классики, который не находит линий элемента, и проба сразу возвращается клиенту, в случае хемометрики за счет погрешностей вполне реально получить для пустой пробы достаточно высокое положительное значение. И получается, что клиенты могут периодически получать деньги за пустой "песок". При текущих ценах на палладий и родий (последний на сегодня более 7000$ за 31,1 г - унцию) на хемометрических погрешностях можно нормально прогореть.
Думаю, проблема именно в центрировании. Существуют ли алгоритмы, которые позволяют разложить спектральную матрицу на главные компоненты с только положительными счетами? Т.е. чтобы нулевые счета соответствовали фоновой линии с паразитными приборными пиками? Или, возможно, существует ещё какое-либо решение моей проблемы?

Andrey_Kireew · 17.01.2020, 02:49

McConst в сообщении #1435547 писал(а):

При анализе методом регрессии на главные компоненты пропорциональная зависимость вычисляется между матрицей счетов (Scores) и вектором откликов. Так как разложение на Главные компоненты выполняется через центрирование, то нулевые счета соответствуют среднему спектру стандартных образцов с ненулевой концентрацией. Поэтому для спектров с маленьким содержанием драгметаллов соответствуют вполне себе ненулевые счета помноженные на ± ошибку коэффициента регрессии.

Центрирование здесь не играет никакой роли. В регрессионное уравнение всегда вводится константа и она снимает все связанные с этим проблемы. Повысить качество регрессионной модели таким "топорным" способом вряд ли удастся. На каком основании Вы сделали Вывод, что PCA улучшит модель? Если только на основании той статьи, то могу Вас разочаровать. Писал её специалист возможно и по спектральному анализу, ну уж ни как не по анализу данных. Он даже не делает различий между факторным анализом и PCA, видимо ему всё едино. При таком подходе, рассчитывать на что то серьёзное просто смешно.

Есть много нормальной литературы по этому вопросу. Ключевые слова РЕГРЕССИОННЫЙ АНАЛИЗ, РЕГРЕССИЯ НА ГЛАВНЫЕ КОМПОНЕНТЫ, МНОЖЕСТВЕННАЯ РЕГРЕССИЯ. Не поленитесь и почитайте. PCA применяется для вполне конкретных целей, далеко не всегда он нужен, и далеко не всегда - это лучшее решение. При некорректном применении - может только навредить.

McConst в сообщении #1435547 писал(а):

Существуют ли алгоритмы, которые позволяют разложить спектральную матрицу на главные компоненты с только положительными счетами?

Как Вы себе это представляете, если счёты - это ортогональные векторы? Такое возможно только при нарушении ортогональности, но тогда и смысл всей этой процедуры окончательно теряется.

McConst · 17.01.2020, 12:03

Цитата:

В регрессионное уравнение всегда вводится константа и она снимает все связанные с этим проблемы. Повысить качество регрессионной модели таким "топорным" способом вряд ли удастся.

.
Вы правы. ошибка анализа как была высокой. В классическом анализе на практике ошибка обычно пропорциональна высоте линий, т.е. примерно в пределах постоянной относительной величины. Хотя по тем формулам, что приводятся в литературе по аналитической химии, МНК дает минимальную абсолютную ошибку в середине градуировочного диапазона и максимальную на краях - т.е. и для бедного содержания тоже. Такие у меня обрывочные знания теории, несогласующиеся с практикой. Более того, у химиков есть метод добавок, когда к неизвестному раствору добавляются кратные количества стандартного раствора с известной концентрацией. Строится зависимость сигнала от объема добавки. Неизвестное содержание по этому методу равно расстоянию от начала координат до точки пересечения градуировочной прямой с осью абсцисс. Из-за того, что формально происходит вычисление концентрации за пределами градуировки, МНК часто дает для искомого вещества ошибку анализа под 40% от концентрации. Хотя по факту метод нормально работает и хорошо согласуется с другими методами анализа, нет таких гигантских ошибок.
PCR - это такой же МНК, только в координатах Главных Компонент. Т.е. если опираться на практику, то минимальная ошибка будет где-то в районе среднего спектра, где счета нулевые.

Цитата:

Он даже не делает различий между факторным анализом и PCA, видимо ему всё едино

Статья по ссылке - это не научная работа, а выдержка из учебного пособия "Хемометрика в Excel" - для таких тупых как я, поэтому факторный анализ скорее всего в другой части книги или вообще опущен, как отдельная самостоятельная тема.

Цитата:

Есть много нормальной литературы по этому вопросу.

Согласен. Если начинать с классики - двухтомник Дрейпера и Смита хорошая вещь. У меня, чтобы получить какие-то практические результаты по PCR ушло около двух лет на всё - изучение С++, работу WinAPI, вытягивание аппаратных спектров в расчетное приложение, само программирование алгоритма и его общая суть работы - всё между конвейерными анализами. Чтобы стать реально специалистом по анализу данных - я просто не успею... :-)

Если только пенсионный возраст ещё на 5 лет не поднимут. Читаю немножко, но не так быстро, как хотелось бы. Приходится на форумах спрашивать.

Цитата:

При некорректном применении - может только навредить.

Вы тут тоже правы. В моем случае классическая обработка спектра по линиям элементов через ММНК модели даёт пока что более лучшие результаты. Разница небольшая, но всё же анализ более устойчив. Я для себя нашел объяснение, что PCA чувствителен к примесям, которых нет в градуировочном наборе. Классике все равно, она видит линию и считает её, а примеси при полной обработке спектра через PCA дают вклад, не предусмотренный градуировкой. Плюс, есть дрейф шкалы от температуры. PCA очень капризен, если сигнал от элемента начинает попадать на другие каналы. Плюс ошибка в определении концентрации аттестованных образцов. Буду смотреть, какие образцы дают наибольший вклад в ошибку - дальнейший этап работы. Возможно, отправлю на повторный хим. анализ.
На данный момент использую для анализа комбинацию обоих методов на разных участках градуировки, но выход так себе, мне такая ситуация не нравится.

Цитата:

Как Вы себе это представляете, если счёты - это ортогональные векторы?

Я это и не представляю. Но возможность спросить тоже не стоит отбрасывать, так как n-мерное пространство при n>3 я представить тоже себе не могу, но математики его как-то описывают.

Евгений Машеров · 17.01.2020, 12:12

Центрирование - процедура необязательная, но очень полезная. Вместо неё можно ввести дополнительный столбец из единиц, рассматривая его, как ещё одну независимую переменную. В точной арифметике результат будет в точности совпадать, только объём вычислений несколько вырастет, вместо $n^3$ операций будет $(n+1)^3$ . Однако арифметика у нас "машинная", с конечной точностью, и в ходе вычислений ошибка нарастает. Оказывается, что польза от центрирования не только и не столько в экономии операций, сколько в повышении точности расчётов. Центрирование - это ортогонализация к этой "дополнительной переменной", делаемая заранее и в наилучших для вычисления условиях. Отказ от центрирования пользы не принесёт "окромя вреда".
Регрессия на главные компоненты мне представляется методом решительно неудачным. Главные компоненты строятся безотносительно к игрекам, и если мы берём часть их, то те, которые объясняют основную часть дисперсии иксов, отбрасывая направления, в которых дисперсия мала. Однако никто не гарантировал нам, что вектор игреков не направлен именно в отброшенном направлении, так что выплеснутый ребёнок оказался именно в этих "несущественных компонентах". Некоторая польза от отбрасывания "малых" ГК (которым соответствуют малые значения собственных чисел корреляционной матрицы) состоит в том, что в выражении для коэффициентов регрессии через главные компоненты собственные значения стоят в знаменателе, и если ошибки измерения некоррелированы, то эти ошибки примерно одинаково изменяют значения проекций игреков на ГК, но при наличии малых собственных значений эти искажения усиливаются в обратной пропорции, то есть сильно меняют значения коэффициентов, увеличивая их дисперсию. Но, отбрасывая, мы отказываемся и от той части полезного сигнала, что направлена вдоль отброшенных компонент.
Некогда я пытался развить методику оценивания, обобщив как этот подход, так и ридж-регрессию и некоторые другие (у меня не ГК, а сингулярное разложение, но это, по сути, одно и то же). Различные компоненты не отбрасывались, а домножались на коэффициент, меньший единицы, в зависимости от отношения "сигнал-шум". Получалось довольно неплохо.
https://libgen.is/book/index.php?md5=2B ... 306FAA0468

Andrey_Kireew · 17.01.2020, 13:51

McConst в сообщении #1435617 писал(а):

МНК дает минимальную абсолютную ошибку в середине градуировочного диапазона и максимальную на краях - т.е. и для бедного содержания тоже

Это нарушение одной из предпосылок МНК, согласно которой ошибки должны быть независимы и одинаково распределены. В этих условиях оценки МНК неэффективны. Возможно, смотреть нужно в эту сторону.

McConst в сообщении #1435617 писал(а):

Я для себя нашел объяснение, что PCA чувствителен к примесям, которых нет в градуировочном наборе. Классике все равно, она видит линию и считает её, а примеси при полной обработке спектра через PCA дают вклад, не предусмотренный градуировкой. Плюс, есть дрейф шкалы от температуры. PCA очень капризен

Объяснять Вы можете как угодно, но дело тут не в PCA, а в его некорректном применении. Зачем Вы его используете, если результаты получаются хуже чем в простой МНК регрессии?

McConst · 17.01.2020, 15:44

Цитата:

Это нарушение одной из предпосылок МНК, согласно которой ошибки должны быть независимы и одинаково распределены.

Возможно мы о разных ошибках говорим. Я имел ввиду доверительный интервал расчетного (прогнозного) значения. Конкретно, о чем речь, вот тут:формула 1.9.6 и рисунок 1.9.1.

Цитата:

Зачем Вы его используете, если результаты получаются хуже чем в простой МНК регрессии?

Использую для контроля анализа. Хуже, но не критично хуже. МНК тоже не свободен от ошибок. Когда оба метода сходятся вокруг одного результата, я почти гарантировано уверен, что измерения правильны. Когда между методами серьезный вылет, больше чем ошибка градуировки, повод задуматься и искать проблему - в конце концов можно воспользоваться заводской градуировкой, которая тоже плохая, но построена на других образцах. Это актуально, когда анализы идут конвейером и нет времени вдумчиво посидеть над спектрами после каждого измерения.

-- 17.01.2020, 15:00 --

Евгений, спасибо за подробный комментарий. У меня матрица состоит из примерно 25-29 спектрально определяемых элементов. При поиске трёх элементов драгметаллов Pt заметно проявляется в 9-й компоненте, а Pd и Rh в 15-й и 17-й. Действительно, это слишком большие значения, и отбрасывать нельзя. PCR - мой первый опыт в этом направлении - легче программируется при смутных представлениях о том, как это работает. В качестве альтернативного способа расчета возьму PLS. Там, как вы пишите, спектральная матрица скоррелирована с концентрациями и используется меньшее количество компонент.
Вашу литературу скачал, посижу над ней, нужно время.

Andrey_Kireew · 17.01.2020, 16:20

McConst в сообщении #1435678 писал(а):

Я имел ввиду доверительный интервал расчетного (прогнозного) значения

Так и любой другой метод даёт минимальную ошибку вблизи наиболее вероятного сочетания факторных переменных - это просто очевидно.

А Вы McConst регрессию МНК строите на всех 29 спектрах?

Andrey_Kireew · 17.01.2020, 20:01

Кажется проблема McConst понятна. При классическом анализе по отдельным линиям имеет место относительная погрешность и для малых концентрация погрешность так же мала. При использовании регрессионного уравнения появляется дополнительная абсолютная погрешность, в которой "тонут" результаты измерений на малых концентрациях.

И всё же Вы пишите

McConst в сообщении #1435617 писал(а):

В классическом анализе на практике ошибка обычно пропорциональна высоте линий, т.е. примерно в пределах постоянной относительной величины.

Это и есть нарушение одной из главных предпосылок МНК. Ошибка не должна зависеть ни от факторов, ни от результативной переменной, т.е. постоянной должна быть именно абсолютная ошибка, а не относительная, как у Вас. И не стоит обманываться, что в случае использования регрессионного уравнения эта ошибка куда то девается, или каким то чудесным образом превращается в чисто аддитивную погрешность. Результирующая ошибка - это линейная комбинация ошибок в отдельных линиях, которые используются в уравнении. За счёт взаимной компенсации, она может уменьшится по сравнению с ошибками, получаемыми по отдельным линиям, но аддитивной она никогда не станет. А та аддитивная погрешность, которая у Вас появляется на малых концентрациях - это плата за некорректное использование МНК. Она просто добавляется плюсом ко всему тому что уже есть. Я имел в виду именно ошибки, реально имеющие место быть.

А то, о чём пишите Вы

McConst в сообщении #1435678 писал(а):

Возможно мы о разных ошибках говорим. Я имел ввиду доверительный интервал расчетного (прогнозного) значения. Конкретно, о чем речь, вот тут:формула 1.9.6 и рисунок 1.9.1.

это лишь оценки ошибок, которые к тому же в Вашем случае не верны.

Данная ситуация известна как проблема герероскедастичности регрессионных остатков. Судя по описанию, именно она Вас и беспокоит. Есть 2 способа решения этой проблемы - нелинейная трансформация матрицы спектров (логарифмирование или преобразование Box-Cox) и взвешенный МНК. PCA этой проблемы не решает, он предназначен совсем не для этого.

McConst · 17.01.2020, 21:22

Цитата:

Так и любой другой метод даёт минимальную ошибку вблизи наиболее вероятного сочетания факторных переменных - это просто очевидно.

Может быть и очевидно, но когда для простейшего уравнения вида $C=aI$ математика даёт при чувствительности 0,001 г/л и диапазона градуировочных образцов 0,1 - 10 г/л доверительный интервал с P=0,95 для раствора $0,2$\pm$0.08$ (40%), а межлабораторные сличения с другими методами анализа, не основанными на градуировке, дают для этого же раствора цифру $0,2$\pm$0,02$ (10%) или меньше, начинаешь искать ошибку в логике использования исходной формулы - где и что учтено и построено не так, почему формула даёт такой широкий интервал и не подтверждается практикой и что в этом виновато. Я тут уклонился от темы, но по существу согласен, что у меня недостаточно знаний для полноценного описания явления и ошибка часто кроется в неправильном выборе образцов. К сожалению, приходится работать с тем, что есть.

Цитата:

А Вы McConst регрессию МНК строите на всех 29 спектрах?

По другому работаю. Есть 64 образца для градуировочной матрицы и 25 образцов для проверочной матрицы. Каждый образец снимал по 4 раза, чтобы иметь представление о разбросе значений для одной и той же точки. 29 химических элементов детектируются на спектре. Из-за взаимного перепоглощения электромагнитных волн в плотной матрице все эти элементы влияют друг на друга в той или иной степени. В теории вся спектральная матрица в PCA из $64$\times$4$ спектров должна быть описана порядка 29 ГК. Полагаю, что часть элементов в матрице из 64 образцов остались скоррелированы и ГК для полного описания может быть меньше, но это маловероятно, так как образцы я отбирал в течении 5 лет с разным соотношением линий и периодически встречающейся всякой элементной экзотики. По факту получилось, что после 17 компоненты вклад остальных в описание матрицы перестаёт давать какое-то значимое улучшение градуировки и ими можно пренебречь. RMSEP=0,042%. RMSEC=0,056%. Дальше ошибка предсказания растёт. Набор для проверки не очень большой и не так хорошо подобран как для калибровки, из-за чего проверочные данные имели ошибку меньше чем калибровочные, но свою функцию по поиску количества ГК он более-менее выполняет. На некоторых образцах 4 параллельно снятых спектра имеют большой разброс. Вероятно, нужно их проверить, мне пару раз встречалось, что химики ошиблись в определении аттестованных концентраций. Странно, что спектр чистой воды, в котором ничего не должно было быть кроме фоновой линии (водород и кислород мой метод спектрального анализа не видит), показал 0,04% Pt - это много и мне это не нравится. Допустимая величина <0,01%. Полагаю, если найду критичный образец в наборе и выброшу его, "платины" в воде станет меньше. Но пока я программной реализации для градуировки в процессе перебора образцов не написал. Заодно задумался, почему на этих же самых образцах ММНК работает стабильнее и никакой платины в воде принципиально никогда не показывает. Думал из-за того, что положительным интенсивностям соответствуют положительные концентрации, а отрицательных интенсивностей впринципе не бывает, в отличие от разнонаправленных от спектрального центра счетов. ММНК принципиально не даст результат $-0,03$\pm$0,08$ (c учетом коэффициента расширения), если константа в уравнении связи нулевая. Уравнение связи $C_x=a_0I_x+a_1I_xI_1+...+a_nI_xI_n$
Модель не отражает строгих физических явлений, скорее математическое приближение, которое более менее просто вычисляется и обладает неплохой предсказательной способностью, а потому абсолютного чуда от неё и не жду. Но именно поэтому ожидал от PCR более качественной градуировки, как позволяющей учесть взаимодействие интенсивностей большего порядка.
Да, при градуировке по ММНК, для получения более качественной градуировки чем PCR, мне понадобилось около 9 параметров - почти вдвое меньше, чем ГК. Параметры подбирал исходя из логики разброса их интенсивностей в матрице спектров. Думаю, если написать программу перебора параметров, я смог бы построить более качественную ММНК градуировку, но пока решил вот потратить время на то, чтобы довести до ума принципиально новый для меня подход. Пока с новым подходом есть проблемы.

Emergency · 17.01.2020, 22:18

Andrey_Kireew в сообщении #1435727 писал(а):

постоянной должна быть именно абсолютная ошибка, а не относительная

Разве это не зависит от способа получения экспериментальных данных?
Например, мы измеряем величину, которая меняется больше рабочего диапазона прибора. Переключая пределы, мы уменьшаем входной сигнал, но погрешности измерения остаются абсолютными, значит ошибка становится относительной.

McConst · 17.01.2020, 22:29

Andrey_Kireew
Спасибо. Прочитал ваше сообщение после того, как моё уже ушло. Получилось так, что я опять типа написал то, на что вы ответили. Во всяком случае вы мою проблему поняли и дали направление для её решения. Ещё раз спасибо.

Цитата:

Ошибка не должна зависеть ни от факторов, ни от результативной переменной

Переменная вроде как и не должна зависеть, но по факту она этого не знает. И получается, что для одного и того же образца снятого пять раз разброс интенсивностей одной и той же линии на малых концентрациях меньше, чем разброс одной и той же интенсивности линий на больших концентрациях. Аппаратный факт, из-за чего - я в тему не углублялся. Умножьте этот разброс на коэффициент пропорциональности, связывающий концентрацию и интенсивность, получается разная абсолютная ошибка.
У меня пока ваше сообщение в голове не уложилось, нужно ещё раз перечитать и посмотреть те темы,что вы рекомендовали. Вроде бы да, это решается взвешиванием. Если честно, сам взвешивание ни разу не применял, только пользовался встроенным алгоритмом, который поставлялся внутри ПО спектрометра. Работал со взвешиванием как с черным ящиком, никаких заметных улучшений не обнаружил, но тут может быть просто баг программиста, нужно самому поиграть с цифрами в собственном коде, прочувствовать его вклад. Попробую.

-- 17.01.2020, 21:39 --

Emergency
Я тоже согласен с вами. Возможно под словом ошибка мы понимаем разные ошибки. Andrey_Kireew видимо имеет ввиду ошибку градуировки. Типа МНК строится так, что средние точки одного и того же замера с разной абсолютной ошибкой для разных диапазонов измерений (ошибка повторяемости) в силу методики построения самой МНК оптимально насколько это возможно равноудалены от градуировочной прямой, которая проходит через все диапазоны усиления (условно ошибка воспроизводимости).

Andrey_Kireew · 17.01.2020, 22:56

Emergency в сообщении #1435747 писал(а):

Разве это не зависит от способа получения экспериментальных данных?

Нет не зависит, для использования классической МНК регрессии ошибки должны быть независимы и одинаково распределены, желательно - по нормальному закону. Для фиксированной относительной погрешности такое невозможно, так как ошибка зависит от значения объясняемой переменной. В этом случае МНК применять некорректно.
Доверительные интервалы для коэффициентов, полученные по известной формуле Вальда, в этом случае будут неверны (оптимистически заужены). В данном случае можно использовать оценки Вайта, устойчивые к гетероскедастичности. Но это не позволит повысить точность, а лишь позволит её адекватно оценить. Так, что толку от этого немного.

-- 18.01.2020, 00:11 --

McConst есть ещё один момент, который Вам желательно хотя бы знать. Насколько я понял из предоставленного Вами материала, Вы используете обратную калибровку. И здесь есть "подводные" камни. Дело в том, что классическая регрессия предполагает использование независимых факторов. В Вашем случае - это концентрации в эталонах. Зависимыми переменными тогда должны быть спектры. Думаю не возникает сомнений по поводу того, что спектр зависит от состава эталона а не наоборот. В обратной калибровке, как у Вас, всё наоборот. Факторы уже не являются независимыми переменными. Эта особенность известна как проблема эндогенности факторов. Приводит она к тому, что оценки коэффициентов получаются смещёнными и не состоятельными. Бороться с этим намного сложнее, чем с гетероскедастичностью. Проще использовать прямую калибровку. Но у Вас очень маленькая выборка, поэтому никаких неудобств от эндогенности Вы можете просто не заметить.

McConst · 18.01.2020, 01:05

Andrey_Kireew

Цитата:

Вы используете обратную калибровку

Про обратную калибровку я немного читал, но понял её по другому.
Это когда строится зависимость I(C) - тут верно, концентрация считается независимой. Измеряется интенсивность. Потом на основании новой неизвестной интенсивности находится С(I), для которой коэффициент пропорциональности обратный и ошибки вычисления этих констант считаются по другому. Химики так часто работают.
В моём случае я строю зависимость С(I), подставляю в эту же зависимость новые I и нахожу новые С с использованием тех же самых констант пропорциональности - прямая калибровка.

Это вы на основании своих заключений, считаете, что концентрация - независимая переменная, а интенсивность зависимая. А в реальном мире абсолютно независимых переменных, для которых нет ошибок измерения, вообще не существует. Стандартные образцы аттестованы метрологическим оборудованием в разных условиях. 10 лабораторий присваивают им разные концентрации и затем она усредняется, по итогу даже у самого независимого образца концентрация равна константа плюс минус доверительный интервал.
И интенсивность никогда не измеряется абсолютно точно, так как всё зависит от того кто как и каким прибором её измеряет. Ошибка измерения интенсивности существует всегда. Что тут зависимо, а что независимо - это вопрос выбора системы координат и философии. Есть закон физики, которые в пределах каких-то допущений считает, что между интенсивностью и концентрацией есть линейная связь с коэффициентом пропорциональности. Физики,когда собирают спектрометр, калибруют датчик измерения интенсивности по стандартным образцам, химики, когда пользуются спектрометром, измеряют концентрации с помощью этого датчика.

Так что из ваших рассуждений получается, что формула Вальда - это сферический конь в вакууме. Формула типа есть, но пользоваться ей нельзя. В принципе, так оно и есть, интервал заужен, поэтому при расчете доверительного интервала в реальных объектах пытаются к значению из формулы приплюсовать квадраты ошибок связанные с метрологическими параметрами измерений. Я кстати, не понимал почему так делают, думал, что градуировка и так всё в себя окончательно включает, но похоже тут вы мне дали объяснение где копать. А про прямую и обратную калибровку я думаю, что я всё же прав и у меня прямая в силу использования той же самой функциональной зависимости, по которой я её строил.

Andrey_Kireew · 18.01.2020, 06:48

McConst в сообщении #1435767 писал(а):

Что тут зависимо, а что независимо - это вопрос выбора системы координат и философии.

Это всего лишь попытка выдать желаемое за действительное. Независимая переменная управляема, и это именно концентрация, а не спектр. Концентрацию Вы задаёте произвольно, а спектр лишь зависит от этой концентрации. Произвольный спектр Вы задать не можете. Концентрация причина - спектр - следствие, и это не какие то то абстрактные умозаключения а неоспоримый факт.

Да, действительно, независимая переменная, в силу её свойств не содержит никаких ошибок. И именно это, в конечном счёте предполагает классическая МНК регрессия. На самом деле, ошибка есть всегда, и в концентрациях в том числе. Но это лишь потому, что вместо истинных концентраций используются их оценки, полученные с помощью какого то другого вида лабораторного анализа, только и всего. Точность методики не может превышать точности эталонов, по котором она калибруется. Лучше пренебречь ошибкой эталона, чем ошибкой спектра, так как первая всегда меньше. Кроме того - практическая сторона вопроса: для одного и того же эталона вы можете выполнить несколько измерений и увеличить тем самым объём выборки, который у Вас очень мал (кажется так Вы и поступаете). Для одного и того же спектра практически невозможно найти множество эталонов с разными концентрациями. Так, что выбор независимых переменных это не просто вопрос личных предпочтений.
И да, на практике, если вопреки всему, вместо независимых переменных использовать явно случайные факторы, всегда удаётся добиться лучшей подгонки модели к обучающей выборке, получить меньшие значения дисперсии остатков (в книге, на которую Вы дали ссылку - это понимается как повышения качества моделирования). Но это лишь иллюзия качества. Сама по себе, точность подгонки под калибровочные данные не важна. Важна лишь прогностическая способность модели. В классической регрессии МНК точность прогноза оценивается довольно просто, и Вы с этими формулами знакомы. Но в случае случайных регрессоров эти оценки будут не верны. Реальная ошибка апргноза, в этом случае, может оказаться неприемлемо большой и даже правильно оценить её значение оказывается весьма затруднительно. Можно много об этом рассуждать, но из теории МНК прямо следует, что если независимые и зависимые переменные поменять местами, то прогностическая способность модели ухудшится, и её невозможно будет даже оценить.

А на счёт формулы Вальда Вы не совсем правы. Есть ситуации, где она вполне корректна. По крайней мере, исходные данные всегда можно преобразовать к такому виду. Есть так же регрессия с ошибками в переменных, решающая проблему эндогенности разными способами, но к ней прибегают очень редко из за сложности математического аппарата. В общем, поступить можно по разному. Но использовать МНК, попросту игнорируя его фундаментальные предпосылки - это не самый лучший вариант. Результаты могут быть просто непредсказуемы. Странно было бы ждать заявленных свойств МНК в условиях, для которых он явно не предназначен. А ведь как раз этого многие и ожидают, и это очень распространённое заблуждение.

И ещё один момент. Обратите внимание, что в вашем случае присутствует несколько как зависимых так и независимых переменных (несколько спектров и несколько концентраций). Именно поэтому становится возможной эта путаница с выбором независимых переменных. Обычно же, зависимая переменная только одна и таких вопросов даже не возникает.
Так вот. Как бы Вы не выбирали переменные, у Вас всё равно имеется возможность построить 29 регрессионных уравнений, хотя и интересуют Вас только некоторые из них. Это называется система одновременных уравнений. Дело в том, что уравнения этой системы взаимосвязаны и если рассматривать их вместе, а не по отдельности, то можно существенно повысить качество модели. Посмотрите трёхшаговый метод наименьших квадратов. К стати, там в уравнения входят и эндогенные и экзогенные переменные. Как раз Ваш случай.

Но первым делом, необходимо решить проблему независимости ошибок. Как я понял, Вы настроены на использование взвешенного МНК. Но я бы посоветовал использовать нелинейную трансформацию. Вместо концентраций попробуйте использовать их логарифмы. Для уравнений в логарифмах, мультипликативная ошибка, нормируемая относительной погрешностью станет аддитивной, и требование независимости ошибок станет выполненным. Если в эталонах нет строго нулевых концентраций, то это, пожалуй самый рациональный путь.

Emergency · 18.01.2020, 07:50

Andrey_Kireew в сообщении #1435756 писал(а):

для использования классической МНК регрессии ошибки должны быть независимы и одинаково распределены

Согласен.

-- 18.01.2020, 08:18 --

Andrey_Kireew в сообщении #1435778 писал(а):

Обычно же, зависимая переменная только одна

В задачах оптимизации обычным (типичным) является многофакторный эксперимент.
Но это явно не случай ТС.

Научный форум dxdy

Регрессия на главные компоненты для анализа драгметаллов