2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Проверка 2-х выборок на линейную зависимость
Сообщение12.07.2008, 19:04 
Заслуженный участник
Аватара пользователя


01/08/06
3128
Уфа
Известны критерии согласия (например, Колмогорова-Смирнова, омега-квадрат), позволяющие проверить гипотезу о том, что выборка взята из генеральной совокупности X, имеющей заданную, заранее полностью известную функцию распределения F(X).

Известны критерии согласия (например, Лиллиефорса, Шапиро-Уилкса), позволяющие проверить гипотезу о том, что выборка взята из генеральной совокупности X, имеющей функцию распределения, известную с точностью до параметров. С помощью данных критериев можно, например, проверить гипотезу нормальности распределения.

Наконец, известны критерии однородности (мне известно только два: Колмогорова-Смирнова и Крамера-фон Мизеса), позволяющие проверить гипотезу о том, взяты ли две выборки из одной и той же генеральной совокупности X (имеют одну и ту же, хотя и заранее неизвестную, функцию распределения F(X)).

Возник такой вопрос:
Известны ли критерии "однородности с точностью до линейного преобразования"?
Т.е. есть ли методы проверки гипотезы о том, что две выборки взяты из одной и той же генеральной совокупности X, но после взятия одна из них подверглась линейному преобразованию x -> Ax+B с неизвестными коэффициентами A и B?

 Профиль  
                  
 
 
Сообщение13.07.2008, 10:57 


19/07/05
243
так вроде же есть критерий хи-квадрат, который проверяет гипотезу о зависимости ( вообще неважно какой - линейной или нет) двух выборок? Да и потом самый простой критерий проверки на линейную зависимость - построить график :)

 Профиль  
                  
 
 
Сообщение14.07.2008, 12:30 
Заслуженный участник
Аватара пользователя


01/08/06
3128
Уфа
Спасибо за ответ!
Только я, наверное, не совсем понятно описал задачу (я хотел назвать тему "Проверка 2-х выборок на однородность с точностью до линейного преобразования", но не смог из-за ограничения на количество символов).

В задаче не нужно проверять статистическую связь между двумя выборками. Предполагается, что эта связь отсутствует. А, может быть, она и есть, но это нас не интересует, т.к. мы вообще не рассматриваем совместные события в этих выборках.

Более чётко формулирую задачу.
Имеется две выборки: $X_1$ и $X_2$, вообще говоря, разного объёма. Априори считается, что выборка $X_i$ ($i \in \{1, 2\}$), является реализацией некоторой случайной величины с (неизвестной заранее) функцией распределения $F_i(x)$.
Требуется проверить следующую гипотезу: $\exists A, B \in \mathbb R, A>0 : F_1(x) \equiv F_2(Ax+B)$.
Известны ли критерии, позволяющие проверить эту гипотезу?

 Профиль  
                  
 
 
Сообщение14.07.2008, 19:42 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Такие критерии наверняка есть, хотя я сейчас ссылок дать не могу. Если найду - отпишу. Но идея может быть такая: нам годится любой критерий согласия, в котором производится нормировка выборок или используемых статистик.

Напишу две реализации одной и той же идеи. Можно для каждой выборки найти оценку математического ожидания и дисперсии, затем по ним произвести нормировку каждой из выборок (что приводит их к стандартному виду с нулевым средним и единичной дисперсией), после чего полученные выборки сравниваем обычным критерием согласия. Разумеется, таблица квантилей тут нужна своя.

Ту же идею можно реализовать по-другому: используя оценки среднего и дисперсии каждой из выборок можно точечно оценить коэффициенты линейного преобразования (которые переводят одну пару значений в другую). Затем применяем это преобразование к одной из выборок, они снова оказываются в одной шкале и применяем обычный критерий согласия.

Добавлено спустя 51 секунду:

Важно только отметить, что тот подход, который я только что описал, использует предположение о существовании среднего и дисперсии.

 Профиль  
                  
 
 
Сообщение14.07.2008, 20:21 
Заслуженный участник
Аватара пользователя


01/08/06
3128
Уфа
Спасибо!
Я думал над этим, но вот это обстоятельство:
PAV писал(а):
Разумеется, таблица квантилей тут нужна своя.

мешает. Т.е. тут нужно вычислить что-то вроде поправок Лиллиефорса для критерия согласия Колмогорова. Можно, конечно, попытаться сделать это самостоятельно, методом Монте-Карло...
PAV писал(а):
Важно только отметить, что тот подход, который я только что описал, использует предположение о существовании среднего и дисперсии.

Строго говоря, тут даже предположение о случайности данных (не говоря уже, например, о независимости результатов последовательных измрений в одной выборке) вызывает большие сомнения :)
Вопрос возник из практической задачи: есть измерения одного и того же физ. параметра (число зарегистрированных гамма-квантов либо вторичных нейтронов либо чего-либо ещё) в двух скважинах, расположенных на одном месторождении (т.н. нейтронный или гамма-каротаж). Каротажи произведены давно, поверки приборов и условия измерения утеряны. Качество таких данных считается плохим. Однако это всё, что у нас есть (условия измерений сейчас уже другие, да и дорого они обходятся). Очень хочется использовать то, что есть, используя то обстоятельство, что каротажи проведены в большом числе скважин.
Для этого каждое измерение рассматривается как случайная выборка из одной и той же, общей для всех измерений, генеральной совокупности, но подвергшаяся своему систематическому искажению (которое за неимением лучшей идеи мы считаем линейным). Если эта гипотеза окажется верной (что мы и хотим проверить), то вид функции распределения для этой генеральной совокупности мы сможем восстановить (с точностью до лин. преобразования), а затем все измерения нормировать по мат. ожиданию и дисперсии этой совокупности, повышая тем самым точность каждого исследования. Затем мы уже можем сравнить уточнённые (нормированные) данные по разным скважинам, выявляя какие-то особенности, корреляции и т.п.

 Профиль  
                  
 
 
Сообщение30.07.2008, 15:42 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
worm2

Хи-квадрат для двух выборок, приведенных к единичной дисперсии и нулевому матожиданию. Число степеней свободы уменьшается на 4, поскольку 4 параметра...

 Профиль  
                  
 
 
Сообщение30.07.2008, 16:26 
Заслуженный участник
Аватара пользователя


01/08/06
3128
Уфа
Евгений Машеров, спасибо.
Только не совсем понятно, какой конкретно хи-квадрат Вы предлагаете. Какую статистику рассчитывать? Пирсона или Никулина или ещё какую-нибудь? Но они же вроде все применяются для проверки гипотезы о согласии с заранее известным распределением, или с заранее известным семейством распределений? А тут мне нужно проверить на согласие с одним и тем же, но заранее неизвестным, семейством распределений (известно только то, как это два распределения из семейства соотносятся друг с другом).
Потом, каким образом Вы предлагаете разбивать область определения случайной величины на интервалы? Многие статистики ведь чувствительны к процессу разбиения.
И не повлияет ли на статистику то, что я приведу данные к одним и тем же дисперсиям и матожиданию?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 7 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group