2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Проверка 2-х выборок на линейную зависимость
Сообщение12.07.2008, 19:04 
Заслуженный участник
Аватара пользователя


01/08/06
3128
Уфа
Известны критерии согласия (например, Колмогорова-Смирнова, омега-квадрат), позволяющие проверить гипотезу о том, что выборка взята из генеральной совокупности X, имеющей заданную, заранее полностью известную функцию распределения F(X).

Известны критерии согласия (например, Лиллиефорса, Шапиро-Уилкса), позволяющие проверить гипотезу о том, что выборка взята из генеральной совокупности X, имеющей функцию распределения, известную с точностью до параметров. С помощью данных критериев можно, например, проверить гипотезу нормальности распределения.

Наконец, известны критерии однородности (мне известно только два: Колмогорова-Смирнова и Крамера-фон Мизеса), позволяющие проверить гипотезу о том, взяты ли две выборки из одной и той же генеральной совокупности X (имеют одну и ту же, хотя и заранее неизвестную, функцию распределения F(X)).

Возник такой вопрос:
Известны ли критерии "однородности с точностью до линейного преобразования"?
Т.е. есть ли методы проверки гипотезы о том, что две выборки взяты из одной и той же генеральной совокупности X, но после взятия одна из них подверглась линейному преобразованию x -> Ax+B с неизвестными коэффициентами A и B?

 Профиль  
                  
 
 
Сообщение13.07.2008, 10:57 


19/07/05
243
так вроде же есть критерий хи-квадрат, который проверяет гипотезу о зависимости ( вообще неважно какой - линейной или нет) двух выборок? Да и потом самый простой критерий проверки на линейную зависимость - построить график :)

 Профиль  
                  
 
 
Сообщение14.07.2008, 12:30 
Заслуженный участник
Аватара пользователя


01/08/06
3128
Уфа
Спасибо за ответ!
Только я, наверное, не совсем понятно описал задачу (я хотел назвать тему "Проверка 2-х выборок на однородность с точностью до линейного преобразования", но не смог из-за ограничения на количество символов).

В задаче не нужно проверять статистическую связь между двумя выборками. Предполагается, что эта связь отсутствует. А, может быть, она и есть, но это нас не интересует, т.к. мы вообще не рассматриваем совместные события в этих выборках.

Более чётко формулирую задачу.
Имеется две выборки: $X_1$ и $X_2$, вообще говоря, разного объёма. Априори считается, что выборка $X_i$ ($i \in \{1, 2\}$), является реализацией некоторой случайной величины с (неизвестной заранее) функцией распределения $F_i(x)$.
Требуется проверить следующую гипотезу: $\exists A, B \in \mathbb R, A>0 : F_1(x) \equiv F_2(Ax+B)$.
Известны ли критерии, позволяющие проверить эту гипотезу?

 Профиль  
                  
 
 
Сообщение14.07.2008, 19:42 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Такие критерии наверняка есть, хотя я сейчас ссылок дать не могу. Если найду - отпишу. Но идея может быть такая: нам годится любой критерий согласия, в котором производится нормировка выборок или используемых статистик.

Напишу две реализации одной и той же идеи. Можно для каждой выборки найти оценку математического ожидания и дисперсии, затем по ним произвести нормировку каждой из выборок (что приводит их к стандартному виду с нулевым средним и единичной дисперсией), после чего полученные выборки сравниваем обычным критерием согласия. Разумеется, таблица квантилей тут нужна своя.

Ту же идею можно реализовать по-другому: используя оценки среднего и дисперсии каждой из выборок можно точечно оценить коэффициенты линейного преобразования (которые переводят одну пару значений в другую). Затем применяем это преобразование к одной из выборок, они снова оказываются в одной шкале и применяем обычный критерий согласия.

Добавлено спустя 51 секунду:

Важно только отметить, что тот подход, который я только что описал, использует предположение о существовании среднего и дисперсии.

 Профиль  
                  
 
 
Сообщение14.07.2008, 20:21 
Заслуженный участник
Аватара пользователя


01/08/06
3128
Уфа
Спасибо!
Я думал над этим, но вот это обстоятельство:
PAV писал(а):
Разумеется, таблица квантилей тут нужна своя.

мешает. Т.е. тут нужно вычислить что-то вроде поправок Лиллиефорса для критерия согласия Колмогорова. Можно, конечно, попытаться сделать это самостоятельно, методом Монте-Карло...
PAV писал(а):
Важно только отметить, что тот подход, который я только что описал, использует предположение о существовании среднего и дисперсии.

Строго говоря, тут даже предположение о случайности данных (не говоря уже, например, о независимости результатов последовательных измрений в одной выборке) вызывает большие сомнения :)
Вопрос возник из практической задачи: есть измерения одного и того же физ. параметра (число зарегистрированных гамма-квантов либо вторичных нейтронов либо чего-либо ещё) в двух скважинах, расположенных на одном месторождении (т.н. нейтронный или гамма-каротаж). Каротажи произведены давно, поверки приборов и условия измерения утеряны. Качество таких данных считается плохим. Однако это всё, что у нас есть (условия измерений сейчас уже другие, да и дорого они обходятся). Очень хочется использовать то, что есть, используя то обстоятельство, что каротажи проведены в большом числе скважин.
Для этого каждое измерение рассматривается как случайная выборка из одной и той же, общей для всех измерений, генеральной совокупности, но подвергшаяся своему систематическому искажению (которое за неимением лучшей идеи мы считаем линейным). Если эта гипотеза окажется верной (что мы и хотим проверить), то вид функции распределения для этой генеральной совокупности мы сможем восстановить (с точностью до лин. преобразования), а затем все измерения нормировать по мат. ожиданию и дисперсии этой совокупности, повышая тем самым точность каждого исследования. Затем мы уже можем сравнить уточнённые (нормированные) данные по разным скважинам, выявляя какие-то особенности, корреляции и т.п.

 Профиль  
                  
 
 
Сообщение30.07.2008, 15:42 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
worm2

Хи-квадрат для двух выборок, приведенных к единичной дисперсии и нулевому матожиданию. Число степеней свободы уменьшается на 4, поскольку 4 параметра...

 Профиль  
                  
 
 
Сообщение30.07.2008, 16:26 
Заслуженный участник
Аватара пользователя


01/08/06
3128
Уфа
Евгений Машеров, спасибо.
Только не совсем понятно, какой конкретно хи-квадрат Вы предлагаете. Какую статистику рассчитывать? Пирсона или Никулина или ещё какую-нибудь? Но они же вроде все применяются для проверки гипотезы о согласии с заранее известным распределением, или с заранее известным семейством распределений? А тут мне нужно проверить на согласие с одним и тем же, но заранее неизвестным, семейством распределений (известно только то, как это два распределения из семейства соотносятся друг с другом).
Потом, каким образом Вы предлагаете разбивать область определения случайной величины на интервалы? Многие статистики ведь чувствительны к процессу разбиения.
И не повлияет ли на статистику то, что я приведу данные к одним и тем же дисперсиям и матожиданию?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 7 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: YandexBot [bot]


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group