Стьюдент. Зависимые выборки.

andreiandrei · 08.11.2023, 18:11

Помогите, пожалуйста, решить/разобраться.
Есть три зависимые выборки A, B и C объёмом 50 каждая.
Критерий Стьюдента говорит, что гипотезы:
"среднее A не больше среднего С" отвергается на уровне значимости 0.005, статистика критерия 2.68212,

pvalue=0.004972

;
"среднее B не больше среднего С" отвергается на уровне значимости 0.01, статистика критерия 2.49742,

pvalue=0.007959

.
Можно ли отсюда сделать какой-нибудь вывод о гипотезе различия средних A и B?
Напрямую средние A и B сравнить не получается, так как разности

a-b

не проходят тест на нормальность.

realeugene · 08.11.2023, 18:23

andreiandrei в сообщении #1616880 писал(а):

"среднее A не больше среднего С" отвергается на уровне значимости 0.005, статистика критерия 2.68212,

pvalue=0.004972

;
"среднее B не больше среднего С" отвергается на уровне значимости 0.01, статистика критерия 2.49742,

pvalue=0.007959

.

А разве допустимо подбирать уровень значимости для теста под выборку?

andreiandrei · 08.11.2023, 18:36

realeugene в сообщении #1616882 писал(а):

А разве допустимо подбирать уровень значимости для теста под выборку?

Вы правы.
Но всё-таки, можно ли сделать какой-нибудь вывод о гипотезе различия средних A и B на основе этих значений статистик?
И если нет, то почему?

Евгений Машеров · 08.11.2023, 19:17

А разности a и с и b и c проходят тест на нормальность? Практически я бы посоветовал перейти к непараметрическим тестам. Вангую, что они значимой разницы средних не увидят.

andreiandrei · 08.11.2023, 22:46

Евгений Машеров в сообщении #1616898 писал(а):

А разности a и с и b и c проходят тест на нормальность?

Да, проходят, критерием Шапиро-Уилка проверяю.

Евгений Машеров в сообщении #1616898 писал(а):

Практически я бы посоветовал перейти к непараметрическим тестам.

Понятно. Спасибо.

Евгений Машеров всообщении #1616898 писал(а):

Вангую, что они значимой разницы средних не увидят.

Да, тоже думаю, что не увидят, там очень близкие средние.
Ещё и поэтому хотелось получить какой-то вывод из сравнения с третьей выборкой.

andreiandrei · 09.11.2023, 13:37

Вот, например, могу ли я рассуждать так:
"Согласно результатам критерия Стьюдента на уровне значимости 0.005 мы можем отвергнуть гипотезу 'среднее A не больше среднего С',
но не можем отвергнуть гипотезу 'среднее B не больше среднего С' на этом уровне значимости.
Следовательно, гипотеза 'среднее B не больше среднего A' более вероятна, чем 'среднее A не больше среднего B.' " ?
Или нельзя так прямо?

realeugene · 11.11.2023, 23:47

andreiandrei в сообщении #1617022 писал(а):

Следовательно, гипотеза 'среднее B не больше среднего A' более вероятна, чем 'среднее A не больше среднего B.' " ?

В каком именно смысле вы применили в этом предложении слова "среднее" и "вероятно"? У вас есть какой-то вероятностный процесс, порождающий случайным образом матожидания нормальных распределлений А и В, по которым уже генерируются выборки? Несложно придумать такой процесс, для которого ваше утверждение будет неверным, потому что априорная вероятность того, что матожидание В больше матожидания А, перевесит все ваши тесты. Вам бы уточнить смысл вашего вопроса.

Евгений Машеров · 12.11.2023, 15:00

Чтобы говорить о вероятностях гипотез, надо говорить о случайных событиях наподобие "матожидание равно a" и вводить вероятность P(a). Её можно рассматривать, как априорную вероятность и затем байесовать, получая апостериорную. В той же парадигме, что использует "значимость", "мощность" и, в частности, там, где есть "критерий Стьюдента" осуществление гипотезы не является случайным событием.
Что до конкретного заданного вопроса - то статистика критерия тут, попросту, отношение средней разности элементов выборок к стандартной ошибке среднего. То, что в одном случае статистика больше, чем во втором, может быть обусловлено как тем, что средняя разность в первом случае больше, а дисперсии примерно равны, так и тем, что дисперсия меньше, и стандартная ошибка среднего с ней. Поскольку нам предоставлено лишь t-отношение, то выбрать из двух утверждений верное не могу.
Предположение, что стандартные ошибки среднего примерно одного порядка, звучит правдоподобно, но не более, никаких доказательств этого нет. А вычесть одно t-отношение из другого, и сказать, что разница очень мала, мы вправе, только если дисперсии одинаковы.
А вот контрпример.
Выборка B имеет элементы, выражающиеся через соответствующие элементы выборки А, как

b_i=a_i+\delta, \delta<0

, а выборка C имеет

c_i=a_i+\Delta+\varepsilon, \Delta<\delta<0

.При сравнении A и B и A и C получим описанную Вами картину, но, сравнивая B и C - обнаружим весьма значимую разницу.
То есть ответ на Ваш вопрос может быть различен, и будет зависеть от неприведенной Вами информации.

andreiandrei · 13.11.2023, 19:46

realeugene в сообщении #1617484 писал(а):

andreiandrei в сообщении #1617022 писал(а):

Следовательно, гипотеза 'среднее B не больше среднего A' более вероятна, чем 'среднее A не больше среднего B.' " ?

В каком именно смысле вы применили в этом предложении слова "среднее" и "вероятно"? У вас есть какой-то вероятностный процесс, порождающий случайным образом матожидания нормальных распределлений А и В, по которым уже генерируются выборки?

Нет, смотрите, есть зависимые выборки из некоторых генеральных совокупностей, распределение которых неизвестно. Возможно, оно и не нормальное. Для сравнения t-тестом Стюдента для зависимых выборок это необязательно. Доказательство не изменится, если эти величины не будут распределены нормально. Требуется лишь, чтоб разности были распределены нормально (это я проверяю тестом на нормальность).
Под "средним" я понимаю среднее (матожидание) этой генеральной совокупности. Слово "вероятна" в этом предложении я намеренно применил довольно вольно, мне хочется разобраться, почему на основании тех тестов, которые я описал, нельзя сделать никакого вывода, или всё-таки какой-то можно. Спасибо, что помогаете мне в этом.

realeugene в сообщении #1617484 писал(а):

Несложно придумать такой процесс, для которого ваше утверждение будет неверным, потому что априорная вероятность того, что матожидание В больше матожидания А, перевесит все ваши тесты. Вам бы уточнить смысл вашего вопроса.

Ситуация такая, что априорной вероятности нет принципиально. То есть, я, конечно, знаю, как у меня получаются эти распределения, но использовать эту информацию я не могу, речь идёт о сравнении разных алгоритмов. Ситуация примерно такая: есть чёрные ящики, на входы которых передаются одинаковые данные, на выходе - упомянутые мной выборки.

Евгений Машеров в сообщении #1617548 писал(а):

Чтобы говорить о вероятностях гипотез...

Здравствуйте, Евгений. Спасибо большое, что опять мне помогаете. Я пытался сравнивать непараметрическими тестами. Как Вы и предсказывали, значимой разницы средних не увидел. Причём, даже если просто, "усилием воли", применить тест Стьюдента к не нормально распределённым разностям A-B, то картина, по всей видимости, больше походит на правду, чем с непараметрическим критерием Манна Уитни. Возможно, что если б ситуация была такая, как Вы описали в контрпримере, то есть, если б одно распределение было бы просто сдвинуто, относительно другого, то этот критерий бы сработал. Видимо, он именно для таких случаев.

Евгений Машеров в сообщении #1617548 писал(а):

То, что в одном случае статистика больше, чем во втором, может быть обусловлено как тем, что средняя разность в первом случае больше, а дисперсии примерно равны, так и тем, что дисперсия меньше, и стандартная ошибка среднего с ней. Поскольку нам предоставлено лишь t-отношение, то выбрать из двух утверждений верное не могу.

Просто посчитать среднюю разность я, конечно, могу. Но ведь это не то, что мне надо. Мне ведь недостаточно сказать, что средняя разность выборок, допустим, положительна, и, следовательно, среднее первой выборки больше среднего второй. Мне надо сделать вывод о сравнении параметров распределений генеральных совокупностей, а для этого мне нужно использовать t-отношение целиком.
Ваш контрпример, я вроде бы понял. Только, как я уже писал чуть выше в этом ответе realeugene, у меня принципиально нет дополнительной информации.
Я понимаю, что не могу сказать: "На таком-то разумном уровне значимости гипотеза 'среднее A не больше среднего B' отвергается."

Если более конкретно, то мне бы хотелось принять решение об использовании того или иного алгоритма на основании тех тестов, которые я описал. Кажется, что алгоритм, который представлен выборкой A более предпочтителен, но как это обосновать?

Евгений Машеров · 14.11.2023, 09:29

А цель алгоритма? Если оценивание - то, наверно, надо дисперсии сравнивать.

realeugene · 14.11.2023, 12:23

andreiandrei в сообщении #1617755 писал(а):

Ситуация примерно такая: есть чёрные ящики, на входы которых передаются одинаковые данные, на выходе - упомянутые мной выборки.

Выборки - в том смысле, что ваши чёрные ящики отбирают по каким-то критериям отсчёты из входных данных, не изменяя их?

-- 14.11.2023, 12:25 --

andreiandrei в сообщении #1617755 писал(а):

Под "средним" я понимаю среднее (матожидание) этой генеральной совокупности.

Но у вас три разных средних, а генеральная совокупность одна.

-- 14.11.2023, 12:32 --

Евгений Машеров в сообщении #1617548 писал(а):

В той же парадигме, что использует "значимость", "мощность" и, в частности, там, где есть "критерий Стьюдента" осуществление гипотезы не является случайным событием.

Это парадигма хрустального шара? Созданного магами и работающего непонятно как?

Тот же критерий Стьюдента считает по выборке некоторую случайную величину с некоторым распределением вероятности и оценивает вероятность увидеть такое значение случайной величины в рамках рассматривамой гипотезы. Для построения до Байеса не хватает только априорной вероятности гипотезы, которую мы всё равно оцениваем интуитивно.

andreiandrei · 14.11.2023, 13:33

realeugene в сообщении #1617829 писал(а):

Выборки - в том смысле, что ваши чёрные ящики отбирают по каким-то критериям отсчёты из входных данных, не изменяя их?

Но у вас три разных средних, а генеральная совокупность одна.

Нет, данные в этих черных ящиках преобразуются, и на выходе каждого мы получаем 50 чисел. Разные чёрные ящики - это разные алгоритмы, вычисляющие одну и ту же величину разными методами.
50 чисел на выходе каждого ящика - это выборки из своих генеральных совокупностей. В данном случае таких совокупностей три, а не одна, видимо, я непонятно написал.
Если бы мы передали на вход ящиков больше данных, то чисел было бы больше. Но больше данных пока нет. Поэтому по выборкам объёма 50 хотелось бы оценить, какой алгоритм какие преимущества имеет. В частности, мы хотим знать различия в средних значениях (генеральных совокупностей) на выходе ящиков.

До этого было всё хорошо, но вот, сейчас, после оптимизации одного из алгоритмов, два алгоритма дают очень близкие результаты и, кроме того, их разности не распределены нормально (не проходят тест Шапиро-Уилка), но хотелось бы, если возможно, выбрать лучший по данному параметру алгоритм. Из этого и появилась сформулированная мной в начале темы задача.

-- 14.11.2023, 13:44 --

Евгений Машеров в сообщении #1617812 писал(а):

А цель алгоритма? Если оценивание - то, наверно, надо дисперсии сравнивать.

Фактически, эти 50 чисел в выборке - это уже дисперсии. Вот я их средние и сравниваю, благодаря Вашему совету, который Вы мне ещё летом дали.
Эта та же задача, которая, как я думал, тогда была успешно решена. Но теперь вот там такая засада с ненормальностью разностей и очень близкими средними этих дисперсий.

realeugene · 14.11.2023, 13:50

andreiandrei в сообщении #1617847 писал(а):

это выборки из своих генеральных совокупностей.

Что есть у вас генеральная совокупность на выходе каждого алгоритма? Ваши алгоритмы - они же просто как-то детерминированно отображают входные величины в выходные? При этом, преобразуется независимо каждый входной отсчёт, или каждый вектор преобразуется совместно? Алгоритмы не адаптируются на основании истории? Это всё может порождать зависимости случайных величин в выборках.

-- 14.11.2023, 13:56 --

(Оффтоп)

andreiandrei в сообщении #1613926 писал(а):

Задача решена. Саму проблему и её решение можно легко понять, если прочитать сообщения в теме, их немного, а сама задача - довольно несложная, как оказалось.

А, ну да. Удачи!

Евгений Машеров · 14.11.2023, 14:21

Ну, где ж Вы хрустальный шар видите? Обычная статистика, фишеровская. В которой осуществление гипотезы не случайное событие, а детерминированное. Просто нам этот факт "не дан в ощущениях", а дана некая статистика, в смысле расчётная величина, распределение которой при условии справедливости гипотезы можно оценить. Ввести априорные вероятности можно - но это другой подход. Конкурирующий. В чём-то более богатый, но если нам неоткуда брать априорные вероятности - мы оказываемся заложниками своих же допущений.

realeugene · 14.11.2023, 15:09

Евгений Машеров в сообщении #1617864 писал(а):

Ввести априорные вероятности можно - но это другой подход. Конкурирующий. В чём-то более богатый, но если нам неоткуда брать априорные вероятности - мы оказываемся заложниками своих же допущений.

Не, пока мы в рамках вероятностной гипотезы сводим нашу статистику к случайной биноминальной величине с

p=0.05

подходы полностью совпадают. Хрустальный шар появляется, когда мы говорим, что на основании однократного испытания Бернулли мы должны принять или отвергнуть нашу гипотезу. И если отвергнуть - то начать перебирать другие гипотезы, пока одна из них не даст нужный нам результат. Но всё-таки практические критерии, что нам следует делать - это уже не математика. Байес по крайней мере показывает, почему этот метод обычно работает. Формулируем мы свои допущения об априорных вероятностях гипотез при этом явно, или же, не желая быть их заложником, закрываем на них глаза, уже не так принципиально.

Научный форум dxdy

Стьюдент. Зависимые выборки.