2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3, 4, 5
 
 Re: Стьюдент. Зависимые выборки.
Сообщение20.11.2023, 15:11 


27/08/16
9426
Евгений Машеров в сообщении #1618900 писал(а):
У меня вопрос. Вам это, регрессионный анализ и смещённые оценки применительно к нему действительно нужно
Оценивание параметров мне интересно, да, хоть это для меня только изредка используемый инструмент. Я был уверен, что смещённые оценки хуже несмещённых. Но вы написали, что я не прав. Дав ссылку на свою работу. Заглянув в неё я обнаружил, что читать её тяжеловато, но у меня сложилось впечатление, что вы решаете несколько иную задачу, а не задачу оценивания полностью неизвестных неслучайных параметров, неявно введя в пространстве параметров какие-то дополнительные априорные понятия о том, что такое хорошо и что такое плохо. Это априорное знание и делает вашу смещённую оценку предпочтительнее несмещённой. Эту свою гипотезу я и попытался проверить.

-- 20.11.2023, 15:18 --

andreiandrei в сообщении #1618922 писал(а):
Вопрос - хоть про какой-нибудь вывод о средних из этих тестов.
Как известно, средняя взаимная информация не отрицательная, так что, какой-то вывод сделать, конечно, можно. Из предполагаемой симметрии задачи можно сделать вывод, что скорее всего если для $a>c$ тест проходит, а для $b>c$ не проходит, то $a>c$. Но насколько вероятность этого больше $1/2$ - вопрос хороший.

-- 20.11.2023, 15:30 --

andreiandrei в сообщении #1618922 писал(а):
Но если наскребу, считаете, что это может помочь?
Ещё раз: я до конца не понимаю, какую задачу вы решаете. Но обычно, чем больше данных - тем больше информации для обоснованного выбора и тем меньше апостериорная вероятность ошибки. Предельные теоремы работают.

Если же вы перебираете разные гипотезы на одних и тех же данных, то вы попадаете в ловушку переобучения. Рано или поздно вы найдёте гипотезу, идеально соответствующую вашим выборкам, конечно. Эти выборки у вас уже грязные.

-- 20.11.2023, 15:35 --

andreiandrei в сообщении #1618922 писал(а):
Требуется только, чтобы разности были распределены нормально. Нормальность самих выборок при обосновании этого варианта критерия Стьюдента нигде не используется.
Для разностей - да, конечно, достаточно, чтобы они были нормальными. Но вы должны это знать априорно, а не из данных.

-- 20.11.2023, 15:39 --

andreiandrei в сообщении #1618922 писал(а):
Выборки зависимые, они получается из одних и тех же данных, это и в названии темы указано.
В случае зависимых выборок оценка дисперсии в знаменателе теста Стьюдента съезжает.

-- 20.11.2023, 15:57 --

andreiandrei в сообщении #1618922 писал(а):
Определение - это не утверждение, с ним не надо спорить. Это просто определение понятия.
Плохое определение вводит в заблуждение похожестью на совершенно не связанные вещи. Но я оспаривал не то, что это некая вероятность ошибки вообще, а то, что это вероятность вашей ошибки. Это априорная вероятность ошибки в рамках гипотезы, а не апостериорная вероятность вашей ошибки после сделанного вами выбора. Разница может быть существенной, когда вы эту вероятность 0.05 интуитивно начинаете воспринимать как второе. Сначала эти 0.05 превращаются в 0.1 в "типичных" условиях, потом нужно накинуть ещё двоечку чтобы учесть погрешности применения вами теста Стюдента в условиях, на которые он не рассчитан, и в результате ваш риск, что вы всё-таки ошиблись, оказывается, например, $1/5$. Вам самому решать, насколько это приемлемо.

 Профиль  
                  
 
 Re: Стьюдент. Зависимые выборки.
Сообщение20.11.2023, 16:51 


15/03/12
56
realeugene в сообщении #1618934 писал(а):
Как известно, средняя взаимная информация не отрицательная, так что, какой-то вывод сделать, конечно, можно. Из предполагаемой симметрии задачи можно сделать вывод, что скорее всего если для $a>c$ тест проходит, а для $b>c$ не проходит, то $a>c$. Но насколько вероятность этого больше $1/2$ - вопрос хороший.
Какой-то вывод мне нужен про соотношение средних A и B, а не про A и C. Про A и C всё уже есть.

realeugene в сообщении #1618934 писал(а):
Но обычно, чем больше данных - тем больше информации для обоснованного выбора и тем меньше апостериорная вероятность ошибки.
Это да, но я уверен, что напрямую Стьюдент не найдёт различия на разумном уровне значимости, даже если я добавлю ещё 50, эти два алгоритма дают очень близкие средние. Да и нормальность разностей вряд ли появится.

realeugene в сообщении #1618934 писал(а):
Эти выборки у вас уже грязные.
Почему? И в каком смысле?

realeugene в сообщении #1618934 писал(а):
Для разностей - да, конечно, достаточно, чтобы они были нормальными. Но вы должны это знать априорно, а не из данных.
Как это возможно? Ведь нет данных - нет разностей.

 Профиль  
                  
 
 Re: Стьюдент. Зависимые выборки.
Сообщение20.11.2023, 17:00 


27/08/16
9426
andreiandrei в сообщении #1618945 писал(а):
Какой-то вывод мне нужен про соотношение средних A и B, а не про A и C.
Извините, опечатался, можно сделать вывод, что $a>b$. Просто потому, что в условиях симметрии ситуации делать вывод, что $a<b$ странно.

 Профиль  
                  
 
 Re: Стьюдент. Зависимые выборки.
Сообщение20.11.2023, 17:05 


15/03/12
56
realeugene в сообщении #1618946 писал(а):
Извините, опечатался, можно сделать вывод, что $a>b$. Просто потому, что в условиях симметрии ситуации делать вывод, что $a<b$ странно.
Тогда вот как раз хотелось бы получить ответ именно на этот хороший вопрос, как Вы говорите, на сколько вероятность больше 1/2? Ну или даже какое-нибудь менее сильное утверждение получить. Но как вот это сделать?

 Профиль  
                  
 
 Re: Стьюдент. Зависимые выборки.
Сообщение20.11.2023, 17:13 


27/08/16
9426
andreiandrei в сообщении #1618945 писал(а):
Почему? И в каком смысле?

В смысле, что вы их уже использовали, чтобы отвергнуть какие-то гипотезы. А значит, для следующих рассматриваемых вами гипотез условия независимости выборок будут нарушены. Отвергнутый ранее тест вводит какую-то связь между выборками: из полного пространства выборок вырезается часть. Плюс к тому же возрастают риски плохой генерализации.

-- 20.11.2023, 17:20 --

andreiandrei в сообщении #1618945 писал(а):
Как это возможно? Ведь нет данных - нет разностей.
Исходя из модели случайного процесса, порождающего эти выборки. Или из априорного анализа других выборок, порождённых этим же случайным процессом, если только риск ошибки будет достаточно мал. Неуверенность в нормальности размазывает распределение случайной величины, которую вы используете в качестве теста, сравнивая с порогом.

 Профиль  
                  
 
 Re: Стьюдент. Зависимые выборки.
Сообщение20.11.2023, 19:47 


27/08/16
9426
andreiandrei в сообщении #1616880 писал(а):
"среднее A не больше среднего С" отвергается на уровне значимости 0.005, статистика критерия 2.68212, $pvalue=0.004972$
Присмотрелся внимательнее. У вас порог не 0.05, как мне показалось, а 0.005.Апостериорная вероятность 0.02 конечно лучше, чем 0.2. Точно посчитать вероятности в рамках гипотез вам, конечно, уже не получится, да и данных для проверки у вас больше нет, если вам важна точность границы. Но что вам мешает грубо сравнить качество черных ящиков, посчитав того же Стьюдента для ненормальной $a-b$ разности? ЦПТ нам говорит, что каким бы ни было распределение при некоторых дополнительных условиях, которые у вас скорее всего выполняются, его сумма стремится к нормальному, и 50 уже достаточно много отсчётов в сумме. Для 50 степеней свободы распределение Стьюдента уже почти точно нормальное распределение.

 Профиль  
                  
 
 Re: Стьюдент. Зависимые выборки.
Сообщение24.11.2023, 16:58 


15/03/12
56
Сделал бутстрэпом.
p-value получилось 0.4932.
Видимо, это максимум информации об отношении средних, которые можно получить из выборок A и B.

-- 24.11.2023, 17:03 --

Большое спасибо всем за участие и идеи!
А Евгению Машерову ещё особенное спасибо за файл про бутстрэп.
Очень классный метод.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 67 ]  На страницу Пред.  1, 2, 3, 4, 5

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: rahmatjon


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group