Проверка 2-х выборок на линейную зависимость

worm2 · 12.07.2008, 19:04

Известны критерии согласия (например, Колмогорова-Смирнова, омега-квадрат), позволяющие проверить гипотезу о том, что выборка взята из генеральной совокупности X, имеющей заданную, заранее полностью известную функцию распределения F(X).

Известны критерии согласия (например, Лиллиефорса, Шапиро-Уилкса), позволяющие проверить гипотезу о том, что выборка взята из генеральной совокупности X, имеющей функцию распределения, известную с точностью до параметров. С помощью данных критериев можно, например, проверить гипотезу нормальности распределения.

Наконец, известны критерии однородности (мне известно только два: Колмогорова-Смирнова и Крамера-фон Мизеса), позволяющие проверить гипотезу о том, взяты ли две выборки из одной и той же генеральной совокупности X (имеют одну и ту же, хотя и заранее неизвестную, функцию распределения F(X)).

Возник такой вопрос:
Известны ли критерии "однородности с точностью до линейного преобразования"?
Т.е. есть ли методы проверки гипотезы о том, что две выборки взяты из одной и той же генеральной совокупности X, но после взятия одна из них подверглась линейному преобразованию x -> Ax+B с неизвестными коэффициентами A и B?

Zo · 13.07.2008, 10:57

так вроде же есть критерий хи-квадрат, который проверяет гипотезу о зависимости ( вообще неважно какой - линейной или нет) двух выборок? Да и потом самый простой критерий проверки на линейную зависимость - построить график

worm2 · 14.07.2008, 12:30

Спасибо за ответ!
Только я, наверное, не совсем понятно описал задачу (я хотел назвать тему "Проверка 2-х выборок на однородность с точностью до линейного преобразования", но не смог из-за ограничения на количество символов).

В задаче не нужно проверять статистическую связь между двумя выборками. Предполагается, что эта связь отсутствует. А, может быть, она и есть, но это нас не интересует, т.к. мы вообще не рассматриваем совместные события в этих выборках.

Более чётко формулирую задачу.
Имеется две выборки: $X_1$ и $X_2$ , вообще говоря, разного объёма. Априори считается, что выборка $X_i$ ( $i \in \{1, 2\}$ ), является реализацией некоторой случайной величины с (неизвестной заранее) функцией распределения $F_i(x)$ .
Требуется проверить следующую гипотезу: $\exists A, B \in \mathbb R, A>0 : F_1(x) \equiv F_2(Ax+B)$ .
Известны ли критерии, позволяющие проверить эту гипотезу?

PAV · 14.07.2008, 19:42

Такие критерии наверняка есть, хотя я сейчас ссылок дать не могу. Если найду - отпишу. Но идея может быть такая: нам годится любой критерий согласия, в котором производится нормировка выборок или используемых статистик.

Напишу две реализации одной и той же идеи. Можно для каждой выборки найти оценку математического ожидания и дисперсии, затем по ним произвести нормировку каждой из выборок (что приводит их к стандартному виду с нулевым средним и единичной дисперсией), после чего полученные выборки сравниваем обычным критерием согласия. Разумеется, таблица квантилей тут нужна своя.

Ту же идею можно реализовать по-другому: используя оценки среднего и дисперсии каждой из выборок можно точечно оценить коэффициенты линейного преобразования (которые переводят одну пару значений в другую). Затем применяем это преобразование к одной из выборок, они снова оказываются в одной шкале и применяем обычный критерий согласия.

Добавлено спустя 51 секунду:

Важно только отметить, что тот подход, который я только что описал, использует предположение о существовании среднего и дисперсии.

worm2 · 14.07.2008, 20:21

Спасибо!
Я думал над этим, но вот это обстоятельство:

PAV писал(а):

Разумеется, таблица квантилей тут нужна своя.

мешает. Т.е. тут нужно вычислить что-то вроде поправок Лиллиефорса для критерия согласия Колмогорова. Можно, конечно, попытаться сделать это самостоятельно, методом Монте-Карло...

PAV писал(а):

Важно только отметить, что тот подход, который я только что описал, использует предположение о существовании среднего и дисперсии.

Строго говоря, тут даже предположение о случайности данных (не говоря уже, например, о независимости результатов последовательных измрений в одной выборке) вызывает большие сомнения

Вопрос возник из практической задачи: есть измерения одного и того же физ. параметра (число зарегистрированных гамма-квантов либо вторичных нейтронов либо чего-либо ещё) в двух скважинах, расположенных на одном месторождении (т.н. нейтронный или гамма-каротаж). Каротажи произведены давно, поверки приборов и условия измерения утеряны. Качество таких данных считается плохим. Однако это всё, что у нас есть (условия измерений сейчас уже другие, да и дорого они обходятся). Очень хочется использовать то, что есть, используя то обстоятельство, что каротажи проведены в большом числе скважин.
Для этого каждое измерение рассматривается как случайная выборка из одной и той же, общей для всех измерений, генеральной совокупности, но подвергшаяся своему систематическому искажению (которое за неимением лучшей идеи мы считаем линейным). Если эта гипотеза окажется верной (что мы и хотим проверить), то вид функции распределения для этой генеральной совокупности мы сможем восстановить (с точностью до лин. преобразования), а затем все измерения нормировать по мат. ожиданию и дисперсии этой совокупности, повышая тем самым точность каждого исследования. Затем мы уже можем сравнить уточнённые (нормированные) данные по разным скважинам, выявляя какие-то особенности, корреляции и т.п.

Евгений Машеров · 30.07.2008, 15:42

worm2

Хи-квадрат для двух выборок, приведенных к единичной дисперсии и нулевому матожиданию. Число степеней свободы уменьшается на 4, поскольку 4 параметра...

worm2 · 30.07.2008, 16:26

Евгений Машеров, спасибо.
Только не совсем понятно, какой конкретно хи-квадрат Вы предлагаете. Какую статистику рассчитывать? Пирсона или Никулина или ещё какую-нибудь? Но они же вроде все применяются для проверки гипотезы о согласии с заранее известным распределением, или с заранее известным семейством распределений? А тут мне нужно проверить на согласие с одним и тем же, но заранее неизвестным, семейством распределений (известно только то, как это два распределения из семейства соотносятся друг с другом).
Потом, каким образом Вы предлагаете разбивать область определения случайной величины на интервалы? Многие статистики ведь чувствительны к процессу разбиения.
И не повлияет ли на статистику то, что я приведу данные к одним и тем же дисперсиям и матожиданию?

Научный форум dxdy

Проверка 2-х выборок на линейную зависимость