Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки

Список форумов » Математика » Помогите решить / разобраться (М)

Стьюдент. Зависимые выборки.

На страницу Пред. 1, 2, 3, 4, 5

Пред. тема | След. тема

realeugene

Re: Стьюдент. Зависимые выборки.

20.11.2023, 15:11

Евгений Машеров в сообщении #1618900 писал(а):

У меня вопрос. Вам это, регрессионный анализ и смещённые оценки применительно к нему действительно нужно

Оценивание параметров мне интересно, да, хоть это для меня только изредка используемый инструмент. Я был уверен, что смещённые оценки хуже несмещённых. Но вы написали, что я не прав. Дав ссылку на свою работу. Заглянув в неё я обнаружил, что читать её тяжеловато, но у меня сложилось впечатление, что вы решаете несколько иную задачу, а не задачу оценивания полностью неизвестных неслучайных параметров, неявно введя в пространстве параметров какие-то дополнительные априорные понятия о том, что такое хорошо и что такое плохо. Это априорное знание и делает вашу смещённую оценку предпочтительнее несмещённой. Эту свою гипотезу я и попытался проверить.

-- 20.11.2023, 15:18 --

andreiandrei в сообщении #1618922 писал(а):

Вопрос - хоть про какой-нибудь вывод о средних из этих тестов.

Как известно, средняя взаимная информация не отрицательная, так что, какой-то вывод сделать, конечно, можно. Из предполагаемой симметрии задачи можно сделать вывод, что скорее всего если для $a>c$ тест проходит, а для $b>c$ не проходит, то $a>c$ . Но насколько вероятность этого больше $1/2$ - вопрос хороший.

-- 20.11.2023, 15:30 --

andreiandrei в сообщении #1618922 писал(а):

Но если наскребу, считаете, что это может помочь?

Ещё раз: я до конца не понимаю, какую задачу вы решаете. Но обычно, чем больше данных - тем больше информации для обоснованного выбора и тем меньше апостериорная вероятность ошибки. Предельные теоремы работают.

Если же вы перебираете разные гипотезы на одних и тех же данных, то вы попадаете в ловушку переобучения. Рано или поздно вы найдёте гипотезу, идеально соответствующую вашим выборкам, конечно. Эти выборки у вас уже грязные.

-- 20.11.2023, 15:35 --

andreiandrei в сообщении #1618922 писал(а):

Требуется только, чтобы разности были распределены нормально. Нормальность самих выборок при обосновании этого варианта критерия Стьюдента нигде не используется.

Для разностей - да, конечно, достаточно, чтобы они были нормальными. Но вы должны это знать априорно, а не из данных.

-- 20.11.2023, 15:39 --

andreiandrei в сообщении #1618922 писал(а):

Выборки зависимые, они получается из одних и тех же данных, это и в названии темы указано.

В случае зависимых выборок оценка дисперсии в знаменателе теста Стьюдента съезжает.

-- 20.11.2023, 15:57 --

andreiandrei в сообщении #1618922 писал(а):

Определение - это не утверждение, с ним не надо спорить. Это просто определение понятия.

Плохое определение вводит в заблуждение похожестью на совершенно не связанные вещи. Но я оспаривал не то, что это некая вероятность ошибки вообще, а то, что это вероятность вашей ошибки. Это априорная вероятность ошибки в рамках гипотезы, а не апостериорная вероятность вашей ошибки после сделанного вами выбора. Разница может быть существенной, когда вы эту вероятность 0.05 интуитивно начинаете воспринимать как второе. Сначала эти 0.05 превращаются в 0.1 в "типичных" условиях, потом нужно накинуть ещё двоечку чтобы учесть погрешности применения вами теста Стюдента в условиях, на которые он не рассчитан, и в результате ваш риск, что вы всё-таки ошиблись, оказывается, например, $1/5$ . Вам самому решать, насколько это приемлемо.

andreiandrei

Re: Стьюдент. Зависимые выборки.

20.11.2023, 16:51

realeugene в сообщении #1618934 писал(а):

Как известно, средняя взаимная информация не отрицательная, так что, какой-то вывод сделать, конечно, можно. Из предполагаемой симметрии задачи можно сделать вывод, что скорее всего если для $a>c$ тест проходит, а для $b>c$ не проходит, то $a>c$ . Но насколько вероятность этого больше $1/2$ - вопрос хороший.

Какой-то вывод мне нужен про соотношение средних A и B, а не про A и C. Про A и C всё уже есть.

realeugene в сообщении #1618934 писал(а):

Но обычно, чем больше данных - тем больше информации для обоснованного выбора и тем меньше апостериорная вероятность ошибки.

Это да, но я уверен, что напрямую Стьюдент не найдёт различия на разумном уровне значимости, даже если я добавлю ещё 50, эти два алгоритма дают очень близкие средние. Да и нормальность разностей вряд ли появится.

realeugene в сообщении #1618934 писал(а):

Эти выборки у вас уже грязные.

Почему? И в каком смысле?

realeugene в сообщении #1618934 писал(а):

Для разностей - да, конечно, достаточно, чтобы они были нормальными. Но вы должны это знать априорно, а не из данных.

Как это возможно? Ведь нет данных - нет разностей.

realeugene

Re: Стьюдент. Зависимые выборки.

20.11.2023, 17:00

andreiandrei в сообщении #1618945 писал(а):

Какой-то вывод мне нужен про соотношение средних A и B, а не про A и C.

Извините, опечатался, можно сделать вывод, что $a>b$ . Просто потому, что в условиях симметрии ситуации делать вывод, что $a<b$ странно.

andreiandrei

Re: Стьюдент. Зависимые выборки.

20.11.2023, 17:05

realeugene в сообщении #1618946 писал(а):

Извините, опечатался, можно сделать вывод, что $a>b$ . Просто потому, что в условиях симметрии ситуации делать вывод, что $a<b$ странно.

Тогда вот как раз хотелось бы получить ответ именно на этот хороший вопрос, как Вы говорите, на сколько вероятность больше 1/2? Ну или даже какое-нибудь менее сильное утверждение получить. Но как вот это сделать?

realeugene

Re: Стьюдент. Зависимые выборки.

20.11.2023, 17:13

andreiandrei в сообщении #1618945 писал(а):

Почему? И в каком смысле?

В смысле, что вы их уже использовали, чтобы отвергнуть какие-то гипотезы. А значит, для следующих рассматриваемых вами гипотез условия независимости выборок будут нарушены. Отвергнутый ранее тест вводит какую-то связь между выборками: из полного пространства выборок вырезается часть. Плюс к тому же возрастают риски плохой генерализации.

-- 20.11.2023, 17:20 --

andreiandrei в сообщении #1618945 писал(а):

Как это возможно? Ведь нет данных - нет разностей.

Исходя из модели случайного процесса, порождающего эти выборки. Или из априорного анализа других выборок, порождённых этим же случайным процессом, если только риск ошибки будет достаточно мал. Неуверенность в нормальности размазывает распределение случайной величины, которую вы используете в качестве теста, сравнивая с порогом.

realeugene

Re: Стьюдент. Зависимые выборки.

20.11.2023, 19:47

andreiandrei в сообщении #1616880 писал(а):

"среднее A не больше среднего С" отвергается на уровне значимости 0.005, статистика критерия 2.68212, $pvalue=0.004972$

Присмотрелся внимательнее. У вас порог не 0.05, как мне показалось, а 0.005.Апостериорная вероятность 0.02 конечно лучше, чем 0.2. Точно посчитать вероятности в рамках гипотез вам, конечно, уже не получится, да и данных для проверки у вас больше нет, если вам важна точность границы. Но что вам мешает грубо сравнить качество черных ящиков, посчитав того же Стьюдента для ненормальной $a-b$ разности? ЦПТ нам говорит, что каким бы ни было распределение при некоторых дополнительных условиях, которые у вас скорее всего выполняются, его сумма стремится к нормальному, и 50 уже достаточно много отсчётов в сумме. Для 50 степеней свободы распределение Стьюдента уже почти точно нормальное распределение.

andreiandrei

Re: Стьюдент. Зависимые выборки.

24.11.2023, 16:58

Сделал бутстрэпом.
p-value получилось 0.4932.
Видимо, это максимум информации об отношении средних, которые можно получить из выборок A и B.

-- 24.11.2023, 17:03 --

Большое спасибо всем за участие и идеи!
А Евгению Машерову ещё особенное спасибо за файл про бутстрэп.
Очень классный метод.

Страница 5 из 5

[ Сообщений: 67 ]

На страницу Пред. 1, 2, 3, 4, 5

Список форумов » Математика » Помогите решить / разобраться (М)

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group