Двумя приборами измеряется некоторая величина. Как водится, предполагается, что результаты измерений есть независимые случайные величины, распределенные по нормальному закону около истинного значения с некоторой дисперсией, определяемой точностью прибора. Для простоты предполагается, что точности приборов одинаковы. Итак, на входе мы имеет три числа: результаты измерений
,
и дисперсию
.
Обычный способ обработки измерений состоит в вычислении среднего
--- именно оно принимается за оценку измеренного значения. Элементарно показывается, что это случайная величина, которая распределена вокруг истинного значения по нормальному же закону, но уже с дисперсией
, то есть точность определения величины увеличивается в
раз.
Так вот, безумная идея состоит в том, что точность можно улучшить гораздо сильнее (заявляются значения в 5 раз
) --- за счет отбрасывания "неподходящих" измерений. Утверждается, что есть программа, которая принимает указанные выше три значения, и, пошуршав мозгами, выдает некоторую оценку измеряемой величины и флажок, является ли введенный набор значений "подходящим". Утверждается, что тестирование этой программы на искусственно сгенерированных случайных числах (результатах "измерений"), при условии, что усреднение ведется только по "подходящим" измерениям, показывает, что дисперсия выдаваемой оценки уменьшается в 4-25 раз по сравнению с дисперсией одного прибора, то есть уменьшается существенно сильнее, чем при вычислении простого среднего из двух измерений. Бредовость идеи косвенно подтверждается тем обстоятельством, что "подходящими" измерениями часто оказываются такие, когда
и
лежат по одну сторону от истинного значения, а выдаваемая программой оценка лежит вне интервала
.
В связи с этим напрашивается следующая постановка задачи. Пусть
и
--- две независимые случайные величины, распределенные по нормальному закону с одинаковой дисперсией
вокруг некоторого истинного значения
. Пусть
--- некоторая оценка истинного значения, а
--- некоторый критерий отбора. Вопрос: как наилучшим образом выбрать
и
, чтобы "дисперсия по критерию"
была минимальной независимо от
? Усреднение производится по мере
Для нормального распределения среднее арифметическое - наилучшая оценка. Но дело в том, что на практике распределение может отличаться от нормального, и самая опасная из причин отличий - грубые ошибки. В этом случае среднее работает плохо. Тут надо либо выбраковывать часть данных, признавая их "выбросами", а оставшиеся принимая за нормальные и обрабатывая методами для нормального распределения, либо перейдя к робастным оценкам (простейшая из них - медиана, но предложено довольно много, в попытках для нормального случая иметь эффективность близкую к среднему, но быть устойчивым к выбросам)
(Институт Проблем Управления, он же Автоматики и Телемеханики, где я некогда защищался, в начале 90х имел самых богатых в мире учёных - если считать по среднему; Борис Абрамович Березовский продолжал числиться завлабом, и его три миллиарда на тыщу нищих профессоров давали среднее состояние три миллиона долларов - медиана доходов была куда пессимистичнее).Описанная в цитате методика выглядит очень странно, поскольку, если отброшены неподходящие, то оценка, какое бы среднее не использовалось, будет лежать между максимумом и минимумом оставленных. Возможно, автор заметки чего-то не понял (вот ситуация, когда истинное значение окажется вне такого интервала, увы, возможна). Кроме того, предлагаемый им тест на нормально распределённых величинах не должен показать пользы от отбрасывания, тут нужна выборка с выбросами. Или изначально имеющая ненормальное распределение (Лапласа 1 рода, Стьюдента с малым числом степеней свободы, даже Коши), или смесь двух распределений, оба нормальные, но первое с малой дисперсией, составляющее основную часть наблюдений, а второе с существенно большей, но доля таких мала ("правильные" наблюдения и "грубые ошибки").
В сборнике "Введение в теорию порядковых статистик" (М.: Статистика, 1970) была статья про попытки улучшить оценку по трём наблюдениям, рассматривая максимально отклоняющееся от двух, как ошибочное, и беря среднее от этих двух. Для нормального распределения оказалось плохо.
Описание алгоритма умышленно неточное, но можно понять, что используется 10 датчиков, с каждого снимается 6 сигналов (три линейных и три угловых ускорения), Используя какой-то критерий отбраковки выбросов, некоторые сигналы исключаются, а для остальных находится среднее.
(некоторые тесты для выбросов есть здесь)
https://en.wikipedia.org/wiki/OutlierВозможно, в описании алгоритма есть намёки на использование многомерных методов, а также на корректировку систематических ошибок, но высказано крайне смутно.
Прагматический смысл работы, насколько понимаю, в том, что появились успешные методы постановки помех GPS, есть резон вернуться к менее точным инерциальным системам (самые первые помнят ещё Фау-2), которые устойчивы к помехам, но датчики ракетного класса слишком дороги, на 155мм снаряды ставить их невыгодно, и предлагается ставить много совсем дешёвых автомобильных, у которых и точность невысока, и вероятность сбоя значительна, но за счёт обработки предполагается выйти на точность "ракетных".