2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Коррекция статистических данных
Сообщение30.01.2018, 14:31 


28/06/13
48
Есть $N$ объектов, чьи величины измеряются в $K$ независимых экспериментах. Обозначим измерение объекта $i$ в $k$-м эксперименте как $X_{ik}$. В различных экспериментах значение объекта может сильно варьироваться, но отношение значений двух объектов в любом эксперименте должно оставаться постоянным. То есть для выделенных объектов $i, j$ $\forall k \frac{X_{ik}}{X_{jk}} \approx M_{ij}$, где $M_{ij}$ - некоторое число.

Однако в реальных экспериментах значение объекта в эксперименте может быть сильно возмущено. Задача состоит в том, чтобы обнаружить эти "выбросы" и скорректировать значения, полученные в эксперименте. Задача является непараметрической, про распределения неизвестно ничего.

Основная сложность состоит в том, что мы вынуждены оперировать не самими значениями объектов, а отношениями значений между различными объектами, так как сами значения могут очень сильно меняться и в этом противоречий нет. А при оперировании отношением значений, мы можем найти, что это отношение отклонилось от тренда, но как определить отклонилось оно из-за объекта $i$ или $j$, а может существенные погрешности есть и в $i$-м и $j$-м объекте. Как в таком случае действовать, чтобы коррекция прошла максимально точно? Есть идеи?

 Профиль  
                  
 
 Re: Коррекция статистических данных
Сообщение30.01.2018, 17:38 


10/03/16
4444
Aeroport
the_jack в сообщении #1288550 писал(а):
скорректировать значения


Что значит скорректировать? У вас может быть выброс как большая ошибка реального значения, которое вполне хорошее? Или выброс это большое отклонение реального параметра объекта от неких ожидаемых значений?

the_jack в сообщении #1288550 писал(а):
но как определить отклонилось оно из-за объекта $i$ или $j$


У вас есть целая строка, отвечающая одному объекту и целый столбец, отвечающий другому. Если в строке творится сущий ад, а в столбце возмущен только один элемент - виноват первый объект. Если то же самое верно для транспонированной матрицы -- то второй. Если ад и в строке и в столбце -- то оба

 Профиль  
                  
 
 Re: Коррекция статистических данных
Сообщение30.01.2018, 17:45 


28/06/13
48
скорректировать - это устранить ошибку измерения. Ожидаемых значений вообще никаких нет, известно только, что отношение значений для двух объектов должно оставаться постоянным и не меняться от эксперимента к эксперименту.

Столбцы отвечают за эксперименты, а не за объекты, так что я не понял комментарий. И что значит сущий ад в строке? В строке может быть вообще что угодно и это может не противоречить единственной данной гипотезе о том, что отношение для разных объектов остается постоянным и не должно меняться от эксперимента к эксперименту

 Профиль  
                  
 
 Re: Коррекция статистических данных
Сообщение30.01.2018, 17:56 


10/03/16
4444
Aeroport
the_jack в сообщении #1288615 писал(а):
Столбцы отвечают за эксперименты, а не за объекты,


Нет. Столбцы и строки отвечают за объекты, на пересечении стоит отношение, которое должно оставаться постоянным. Время (или номер эксперимента) идёт по третьей размерности. Получается трехмерный массив.

Если зафиксировать первые два индекса, т.е. строку и столбец -- получится временной ряд отношений для заданной пары объектов. Мера непостоянства (хотя бы дисперсия) значений ряда будет тем параметром, по которому мы будем сравнивать поведение этого вашего отношения с эталонным, нужным вам поведением. Имеем матрицу из дисперсий - ад там где ее элементы сильно отклоняются от ожидаемых значений

 Профиль  
                  
 
 Re: Коррекция статистических данных
Сообщение30.01.2018, 17:58 
Заслуженный участник
Аватара пользователя


01/08/06
3140
Уфа
$M_{ij}$ можно сначала оценить так:
$$M_{ij}\approx\frac 1 K \sum\limits_{k=1}^K \frac{X_{ik}}{X_{jk}}$$
А потом браковать те $k$, для которых $X_{ik}/X_{jk}$ существенно отличается от этой оценки. И заново вычислять оценку $M_{ij}$ уже без них. Потом ещё неплохо было бы проверить, что $M_{ij}$ согласованы, например, должно быть $M_{ij}M_{ji}\approx 1$ и т.п. Если эта проверка провалилась, даже не знаю, что делать, браковать весь мой метод целиком.

 Профиль  
                  
 
 Re: Коррекция статистических данных
Сообщение30.01.2018, 18:00 


10/03/16
4444
Aeroport
worm2 в сообщении #1288621 писал(а):
$M_{ij}$ можно сначала оценить так:
$$M_{ij}\approx\frac 1 K \sum\limits_{k=1}^K \frac{X_{ik}}{X_{jk}}$$


Все таки лучше наверное медиана :-)

 Профиль  
                  
 
 Re: Коррекция статистических данных
Сообщение30.01.2018, 18:09 
Заслуженный участник
Аватара пользователя


01/08/06
3140
Уфа
Да, точно, медиана вообще супер будет :-)

 Профиль  
                  
 
 Re: Коррекция статистических данных
Сообщение30.01.2018, 18:12 


28/06/13
48
Цитата:
Нет. Столбцы и строки отвечают за объекты, на пересечении стоит отношение, которое должно оставаться постоянным. Время (или номер эксперимента) идёт по третьей размерности. Получается трехмерный массив.


Все, теперь понял. Да, я примерно так и думал, но там есть пара вопросов в том как именно корректировать значения.

1. Например, в данном эксперименте стало ясно, что объекты $Y_1, ... Y_m$ - хорошие, а $Z_1, ..., Z_l$ - плохие. Каким образом будете корректировать значения $Z_1, ..., Z_l$ - по одному какому-то $Y_j$ или по всему набору?

2. Для данного эксперимента выяснилось, что все объекты плохие. То есть дисперсия или еще какой критерий для всех превышает заданный порог. То есть есть проблемы с определением хорошего объекта и вообще стоит ли вводить классификацию или просто использовать какую-то регрессию.

-- 30.01.2018, 21:15 --

Цитата:
А потом браковать те $k$, для которых $X_{ik}/X_{jk}$ существенно отличается от этой оценки


Задача стоит не в отбраковке, а в коррекции. То есть не проблема через медиану найти выбросы в значениях отношения, но надо понять какие объекты корректировать, а какие нет и каким образом это делать.

-- 30.01.2018, 21:42 --

Кстати, добавлю еще, что априори плохими являются не сами объекты, а именно некоторые измерения этих объектов. То есть каждый объект измеряется в каких-то экспериментах нормально, а в каких-то с большой ошибкой. При этом в каждом эксперименте какие-то объекты могут быть измерены нормально, а какие-то с большой ошибкой. И распознать и скорректировать нужно именно проблемные $X_{ij}$

 Профиль  
                  
 
 Re: Коррекция статистических данных
Сообщение30.01.2018, 21:33 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Чисто эмпирический алгоритм:
Для пар $X_i$, $X_j$ получаю набор $M_{i,j}(k)=\frac {x_{i,k}} {x_{j,k}}$ для разных k. По нему строю робастную оценку $M_{i,j}$, например, медиану. Используя её, для каждого i, k получаю оценки $X_{i,k}$ через $M_{i,j}X_{j,k}$ и сравниваю с ними. Тут варианты:
Краткий путь - строю медиану полученных оценок, включая в набор и непосредственно измеренное значение (и даже его, несколько раз продублировав) и её используя, как уточнённое значение.
Длинный путь - сравниваю непосредственно измеренное значение с полученным набором и проверяю его на "выброс", с помощью, например, критерия Тьюки. Если не расценивается, как выброс - использую его, нет - медиану оценок.
Совсем длинный - отметив некоторые наблюдения, как выбросы, повторяю расчёт лишь с незабракованными, пока картина не стабилизируется.

 Профиль  
                  
 
 Re: Коррекция статистических данных
Сообщение30.01.2018, 21:44 


28/06/13
48
Евгений, спасибо, это очень интересно, в эту сторону я совсем не думал!

-- 31.01.2018, 01:14 --

Есть правда, небольшая проблема, самих объектов не очень много (3-5 штук). То есть, если у нас, в эксперименте, например, отношение хороших/плохих, например, 3/2 или 2/1 - то будет ли это достаточной статистикой, чтоб построить устойчиво медиану оценок $X_{ik}$ ?

 Профиль  
                  
 
 Re: Коррекция статистических данных
Сообщение30.01.2018, 23:25 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Я боюсь, что при таком отношении "плохих" и "хороших" любая оценка сомнительна.

 Профиль  
                  
 
 Re: Коррекция статистических данных
Сообщение31.01.2018, 13:30 
Аватара пользователя


14/02/12

841
Лорд Амбера
А если бивес-оценку попробовать? Тогда никаких сомнений по отбору, совесть чистая, все формализовано. Я функцию веса чуть модернизировал, там в каноническом виде отсечка, а можно продлить ее до бесконечности с длинным хвостом приближающимся к 0, еще одной заботой меньше. Отсечет все дальние значения как если бы их и не было.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 12 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: F111mon


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group