2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Коррекция статистических данных
Сообщение30.01.2018, 14:31 


28/06/13
48
Есть $N$ объектов, чьи величины измеряются в $K$ независимых экспериментах. Обозначим измерение объекта $i$ в $k$-м эксперименте как $X_{ik}$. В различных экспериментах значение объекта может сильно варьироваться, но отношение значений двух объектов в любом эксперименте должно оставаться постоянным. То есть для выделенных объектов $i, j$ $\forall k \frac{X_{ik}}{X_{jk}} \approx M_{ij}$, где $M_{ij}$ - некоторое число.

Однако в реальных экспериментах значение объекта в эксперименте может быть сильно возмущено. Задача состоит в том, чтобы обнаружить эти "выбросы" и скорректировать значения, полученные в эксперименте. Задача является непараметрической, про распределения неизвестно ничего.

Основная сложность состоит в том, что мы вынуждены оперировать не самими значениями объектов, а отношениями значений между различными объектами, так как сами значения могут очень сильно меняться и в этом противоречий нет. А при оперировании отношением значений, мы можем найти, что это отношение отклонилось от тренда, но как определить отклонилось оно из-за объекта $i$ или $j$, а может существенные погрешности есть и в $i$-м и $j$-м объекте. Как в таком случае действовать, чтобы коррекция прошла максимально точно? Есть идеи?

 Профиль  
                  
 
 Re: Коррекция статистических данных
Сообщение30.01.2018, 17:38 


10/03/16
4444
Aeroport
the_jack в сообщении #1288550 писал(а):
скорректировать значения


Что значит скорректировать? У вас может быть выброс как большая ошибка реального значения, которое вполне хорошее? Или выброс это большое отклонение реального параметра объекта от неких ожидаемых значений?

the_jack в сообщении #1288550 писал(а):
но как определить отклонилось оно из-за объекта $i$ или $j$


У вас есть целая строка, отвечающая одному объекту и целый столбец, отвечающий другому. Если в строке творится сущий ад, а в столбце возмущен только один элемент - виноват первый объект. Если то же самое верно для транспонированной матрицы -- то второй. Если ад и в строке и в столбце -- то оба

 Профиль  
                  
 
 Re: Коррекция статистических данных
Сообщение30.01.2018, 17:45 


28/06/13
48
скорректировать - это устранить ошибку измерения. Ожидаемых значений вообще никаких нет, известно только, что отношение значений для двух объектов должно оставаться постоянным и не меняться от эксперимента к эксперименту.

Столбцы отвечают за эксперименты, а не за объекты, так что я не понял комментарий. И что значит сущий ад в строке? В строке может быть вообще что угодно и это может не противоречить единственной данной гипотезе о том, что отношение для разных объектов остается постоянным и не должно меняться от эксперимента к эксперименту

 Профиль  
                  
 
 Re: Коррекция статистических данных
Сообщение30.01.2018, 17:56 


10/03/16
4444
Aeroport
the_jack в сообщении #1288615 писал(а):
Столбцы отвечают за эксперименты, а не за объекты,


Нет. Столбцы и строки отвечают за объекты, на пересечении стоит отношение, которое должно оставаться постоянным. Время (или номер эксперимента) идёт по третьей размерности. Получается трехмерный массив.

Если зафиксировать первые два индекса, т.е. строку и столбец -- получится временной ряд отношений для заданной пары объектов. Мера непостоянства (хотя бы дисперсия) значений ряда будет тем параметром, по которому мы будем сравнивать поведение этого вашего отношения с эталонным, нужным вам поведением. Имеем матрицу из дисперсий - ад там где ее элементы сильно отклоняются от ожидаемых значений

 Профиль  
                  
 
 Re: Коррекция статистических данных
Сообщение30.01.2018, 17:58 
Заслуженный участник
Аватара пользователя


01/08/06
3140
Уфа
$M_{ij}$ можно сначала оценить так:
$$M_{ij}\approx\frac 1 K \sum\limits_{k=1}^K \frac{X_{ik}}{X_{jk}}$$
А потом браковать те $k$, для которых $X_{ik}/X_{jk}$ существенно отличается от этой оценки. И заново вычислять оценку $M_{ij}$ уже без них. Потом ещё неплохо было бы проверить, что $M_{ij}$ согласованы, например, должно быть $M_{ij}M_{ji}\approx 1$ и т.п. Если эта проверка провалилась, даже не знаю, что делать, браковать весь мой метод целиком.

 Профиль  
                  
 
 Re: Коррекция статистических данных
Сообщение30.01.2018, 18:00 


10/03/16
4444
Aeroport
worm2 в сообщении #1288621 писал(а):
$M_{ij}$ можно сначала оценить так:
$$M_{ij}\approx\frac 1 K \sum\limits_{k=1}^K \frac{X_{ik}}{X_{jk}}$$


Все таки лучше наверное медиана :-)

 Профиль  
                  
 
 Re: Коррекция статистических данных
Сообщение30.01.2018, 18:09 
Заслуженный участник
Аватара пользователя


01/08/06
3140
Уфа
Да, точно, медиана вообще супер будет :-)

 Профиль  
                  
 
 Re: Коррекция статистических данных
Сообщение30.01.2018, 18:12 


28/06/13
48
Цитата:
Нет. Столбцы и строки отвечают за объекты, на пересечении стоит отношение, которое должно оставаться постоянным. Время (или номер эксперимента) идёт по третьей размерности. Получается трехмерный массив.


Все, теперь понял. Да, я примерно так и думал, но там есть пара вопросов в том как именно корректировать значения.

1. Например, в данном эксперименте стало ясно, что объекты $Y_1, ... Y_m$ - хорошие, а $Z_1, ..., Z_l$ - плохие. Каким образом будете корректировать значения $Z_1, ..., Z_l$ - по одному какому-то $Y_j$ или по всему набору?

2. Для данного эксперимента выяснилось, что все объекты плохие. То есть дисперсия или еще какой критерий для всех превышает заданный порог. То есть есть проблемы с определением хорошего объекта и вообще стоит ли вводить классификацию или просто использовать какую-то регрессию.

-- 30.01.2018, 21:15 --

Цитата:
А потом браковать те $k$, для которых $X_{ik}/X_{jk}$ существенно отличается от этой оценки


Задача стоит не в отбраковке, а в коррекции. То есть не проблема через медиану найти выбросы в значениях отношения, но надо понять какие объекты корректировать, а какие нет и каким образом это делать.

-- 30.01.2018, 21:42 --

Кстати, добавлю еще, что априори плохими являются не сами объекты, а именно некоторые измерения этих объектов. То есть каждый объект измеряется в каких-то экспериментах нормально, а в каких-то с большой ошибкой. При этом в каждом эксперименте какие-то объекты могут быть измерены нормально, а какие-то с большой ошибкой. И распознать и скорректировать нужно именно проблемные $X_{ij}$

 Профиль  
                  
 
 Re: Коррекция статистических данных
Сообщение30.01.2018, 21:33 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Чисто эмпирический алгоритм:
Для пар $X_i$, $X_j$ получаю набор $M_{i,j}(k)=\frac {x_{i,k}} {x_{j,k}}$ для разных k. По нему строю робастную оценку $M_{i,j}$, например, медиану. Используя её, для каждого i, k получаю оценки $X_{i,k}$ через $M_{i,j}X_{j,k}$ и сравниваю с ними. Тут варианты:
Краткий путь - строю медиану полученных оценок, включая в набор и непосредственно измеренное значение (и даже его, несколько раз продублировав) и её используя, как уточнённое значение.
Длинный путь - сравниваю непосредственно измеренное значение с полученным набором и проверяю его на "выброс", с помощью, например, критерия Тьюки. Если не расценивается, как выброс - использую его, нет - медиану оценок.
Совсем длинный - отметив некоторые наблюдения, как выбросы, повторяю расчёт лишь с незабракованными, пока картина не стабилизируется.

 Профиль  
                  
 
 Re: Коррекция статистических данных
Сообщение30.01.2018, 21:44 


28/06/13
48
Евгений, спасибо, это очень интересно, в эту сторону я совсем не думал!

-- 31.01.2018, 01:14 --

Есть правда, небольшая проблема, самих объектов не очень много (3-5 штук). То есть, если у нас, в эксперименте, например, отношение хороших/плохих, например, 3/2 или 2/1 - то будет ли это достаточной статистикой, чтоб построить устойчиво медиану оценок $X_{ik}$ ?

 Профиль  
                  
 
 Re: Коррекция статистических данных
Сообщение30.01.2018, 23:25 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Я боюсь, что при таком отношении "плохих" и "хороших" любая оценка сомнительна.

 Профиль  
                  
 
 Re: Коррекция статистических данных
Сообщение31.01.2018, 13:30 
Аватара пользователя


14/02/12

841
Лорд Амбера
А если бивес-оценку попробовать? Тогда никаких сомнений по отбору, совесть чистая, все формализовано. Я функцию веса чуть модернизировал, там в каноническом виде отсечка, а можно продлить ее до бесконечности с длинным хвостом приближающимся к 0, еще одной заботой меньше. Отсечет все дальние значения как если бы их и не было.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 12 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group