2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3
 
 Re: Как оценить статистическую разницу
Сообщение01.10.2021, 12:17 
Заслуженный участник


31/12/05
1516
traineeflow в сообщении #1533307 писал(а):
При уровне значимости 0,05 свой результат я интерпретирую так: 0,03 < 0,05, т.е. выборки различаются, но с вероятностью не более 5% могут и не различаться. А при уровне значимости 0,01 результат: 0,03 > 0,01, значит, выборки не различаются, но с вероятностью не более 1% могут и различаться? Бред?
Можно привести такую аналогию.

Слушается дело о признании вновь найденных картин известного художника подлинными. На суд приглашен эксперт, который по каким-то параметрам изучил новые картины и уже признанные подлинными и пришел к выводу: если проводить сравнение подлинных картин друг с другом, то в 3% случаев они отличаются друг от друга так же или сильнее, чем вновь найденные от подлинных.

А судье уже предстоит принять решение по своему внутреннему убеждению. Один судья скажет, что шанс менее 5% маловероятен и картины не могут быть подлинными, другой - что это в порядке вещей, потому что события с вероятностью 1% регулярно случаются.

(Зависимые выборки в этом случае означают, что сравниваются картины с аналогичным сюжетом.)

 Профиль  
                  
 
 Re: Как оценить статистическую разницу
Сообщение01.10.2021, 13:14 
Заслуженный участник
Аватара пользователя


11/03/08
9889
Москва
traineeflow в сообщении #1533307 писал(а):
Понятно, что при уровне значимости 0,05 делаем вывод, что выборки различаются. А если уровень значимости 0,01, то не различаются? При уровне значимости 0,05 свой результат я интерпретирую так: 0,03 < 0,05, т.е. выборки различаются, но с вероятностью не более 5% могут и не различаться. А при уровне значимости 0,01 результат: 0,03 > 0,01, значит, выборки не различаются, но с вероятностью не более 1% могут и различаться? Бред?


Это не так работает.
Есть нулевая гипотеза - например "выборки не различаются" (причём надо понять, по какому признаку различия ожидаются, различаются распределения, различаются матожидания и различаются дисперсии - это разные постановки, и список далеко не исчерпыващий).
Есть альтернативная гипотеза, что "различаются".
Сравниваем показатель, характеризующий различия. Какие-то различия есть, но они могут быть случайными. Поэтому находим, с какой вероятностью видимая нами или большая величина различий может появиться, если справедлива нулевая гипотеза. Условно выбранные, но общепринятые значения 5% и 1% (иногда выделяют ещё точку 10%, говоря, что статистически значимой разницы не выявили, но тенденция есть, так что есть резон попробовать набрать выборку побольше, авось выявим; но это "ориентир для себя", в публикациях обычно 5% или 1%). Можно сказать, что при 5% уровне мы примем случайные колебания за действительные различия в одном случае из 20, при 1% в одном из ста (т.е., чем меньше "уровень значимости", тем сильнее наш вывод).
Что касается Вашей задачи конкретно - то надо начинать не с выбора метода, а с выбора того, что, собственно, сравниваем. На какой вопрос отвечаем. А вопросов может быть много.
"Связан ли показатель индикатора со значением параметра?" - тут регрессия или корреляция работают.
"Как связаны шкалы индикатора и фактическое значение параметра?" - регрессия, возможно, и нелинейная.
"Индикатор и точный измеритель градуированы в одной шкале, есть ли систематическая ошибка (смещение)?" - оценка параметра сдвига и оценка значимости различий. Стьюдент, если верится в нормальность отклонений (не самих значений измеряемой величины, а отклонений измеренных значений от фактических), Манн-Уитни (ну, или скажу Вилкоксон, на самом деле надо не по названию метода смотреть, а по описанию, авторы учебников иногда названия меняют местами, благо разрабатывали непараметрические методы эти авторы в одно время) - если надежды на нормальность нет, а большие выбросы и т.п. вероятны.
"Систематическая ошибка убрана, что со случайной ошибкой?" - тесты для дисперсии и вообще мер разброса.
Я всё ещё не понял, что Вам нужно.

 Профиль  
                  
 
 Re: Как оценить статистическую разницу
Сообщение01.10.2021, 15:20 
Аватара пользователя


21/01/09
3925
Дивногорск
Евгений Машеров в сообщении #1533449 писал(а):
Я всё ещё не понял, что Вам нужно.
Я, тоже. Возможно ТС про "эффект обработки".

 Профиль  
                  
 
 Re: Как оценить статистическую разницу
Сообщение04.10.2021, 08:07 


21/09/21
17
Евгений Машеров в сообщении #1533449 писал(а):
traineeflow в сообщении #1533307 писал(а):
Понятно, что при уровне значимости 0,05 делаем вывод, что выборки различаются. А если уровень значимости 0,01, то не различаются? При уровне значимости 0,05 свой результат я интерпретирую так: 0,03 < 0,05, т.е. выборки различаются, но с вероятностью не более 5% могут и не различаться. А при уровне значимости 0,01 результат: 0,03 > 0,01, значит, выборки не различаются, но с вероятностью не более 1% могут и различаться? Бред?


Это не так работает.
Есть нулевая гипотеза - например "выборки не различаются" (причём надо понять, по какому признаку различия ожидаются, различаются распределения, различаются матожидания и различаются дисперсии - это разные постановки, и список далеко не исчерпыващий).
Есть альтернативная гипотеза, что "различаются".
Сравниваем показатель, характеризующий различия. Какие-то различия есть, но они могут быть случайными. Поэтому находим, с какой вероятностью видимая нами или большая величина различий может появиться, если справедлива нулевая гипотеза. Условно выбранные, но общепринятые значения 5% и 1% (иногда выделяют ещё точку 10%, говоря, что статистически значимой разницы не выявили, но тенденция есть, так что есть резон попробовать набрать выборку побольше, авось выявим; но это "ориентир для себя", в публикациях обычно 5% или 1%). Можно сказать, что при 5% уровне мы примем случайные колебания за действительные различия в одном случае из 20, при 1% в одном из ста (т.е., чем меньше "уровень значимости", тем сильнее наш вывод).
Что касается Вашей задачи конкретно - то надо начинать не с выбора метода, а с выбора того, что, собственно, сравниваем. На какой вопрос отвечаем. А вопросов может быть много.
"Связан ли показатель индикатора со значением параметра?" - тут регрессия или корреляция работают.
"Как связаны шкалы индикатора и фактическое значение параметра?" - регрессия, возможно, и нелинейная.
"Индикатор и точный измеритель градуированы в одной шкале, есть ли систематическая ошибка (смещение)?" - оценка параметра сдвига и оценка значимости различий. Стьюдент, если верится в нормальность отклонений (не самих значений измеряемой величины, а отклонений измеренных значений от фактических), Манн-Уитни (ну, или скажу Вилкоксон, на самом деле надо не по названию метода смотреть, а по описанию, авторы учебников иногда названия меняют местами, благо разрабатывали непараметрические методы эти авторы в одно время) - если надежды на нормальность нет, а большие выбросы и т.п. вероятны.
"Систематическая ошибка убрана, что со случайной ошибкой?" - тесты для дисперсии и вообще мер разброса.
Я всё ещё не понял, что Вам нужно.

Спасибо за разъяснения. Попробую сформулировать ответ на вопрос «На какой вопрос отвечаем?». Я дополнил свою таблицу колонками с разностью показаний между индикаторами и вольтметром.
Вольтметр_Индикатор 1_Индикатор 2_ДельтаИ1_ДельтаИ2
5,0_______8,5_________4,5_________+3,5_______-0,5
5,5_______8,7_________5,9_________+3,7_______+0,4
Итак 200 строк.
Мне нужно сравнить между собой эти разности. Я рассчитал среднее и дисперсии разностей. Вот они:
___________ДельтаИ1_ДельтаИ2
Среднее_____0,6_______6,8
Дисперсия__10,9______35,9
По среднему я делаю вывод, что индикатор2 завышает показания значительно больше, чем индикатор1.
По дисперсии я делаю вывод, что индикатор2 имеет бОльший разброс, чем индикатор1.
Итого: показания индикаторов различаются.
Если я не прав, прошу поправить.
Но достаточно ли этого и нет ли одного критерия, чтобы показать то, что показания индикаторов различаются?

 Профиль  
                  
 
 Re: Как оценить статистическую разницу
Сообщение04.10.2021, 09:18 
Аватара пользователя


21/01/09
3925
Дивногорск
traineeflow в сообщении #1533808 писал(а):
По среднему я делаю вывод, что индикатор2 завышает показания значительно больше, чем индикатор1.

Вывод можно сделать лишь проверив статистическую гипотезу. Вы это проверяли?

 Профиль  
                  
 
 Re: Как оценить статистическую разницу
Сообщение04.10.2021, 10:30 


21/09/21
17
Александрович в сообщении #1533817 писал(а):
traineeflow в сообщении #1533808 писал(а):
По среднему я делаю вывод, что индикатор2 завышает показания значительно больше, чем индикатор1.

Вывод можно сделать лишь проверив статистическую гипотезу. Вы это проверяли?

Я делал так:
Сформулировал гипотезы:
H0: отклонения в выборках И1 и И2 не различаются между собой.
H1: отклонения в выборках И1 и И2 различаются между собой.

Собрал все разности в таблицу:
Отклонение_Кол.откл.И1_Кол.отклИ2
-0,5___ ______1__________0
-0,4___ ______2__________1
И т.д.

Сгруппировал, чтобы сумма частот в строке была $ > 5$.
Задал теоретические частоты. Теоретические частоты для И1i и И2i одинаковые.
Рассчитал $\chi^2$ эмп. $ = 88,406$
Количество степеней свободы $ = 14$
Критическое значение $\chi^2$ $ = 23,7$ для $p = 0,05$
$\chi^2 > \chi^2_{krit} \Rightarrow H0 $ отвергается. Отклонения в выборках И1 и И2 различаются между собой $(P < 0,05)$.
Но выше писали что $\chi^2$ в данном случае не подходит :-( .

 Профиль  
                  
 
 Re: Как оценить статистическую разницу
Сообщение04.10.2021, 11:40 
Аватара пользователя


21/01/09
3925
Дивногорск
traineeflow в сообщении #1533827 писал(а):
Но выше писали что Хи-квадрат в данном случае не подходит
Потому что он применяется для несвязанных выборок.

 Профиль  
                  
 
 Re: Как оценить статистическую разницу
Сообщение04.10.2021, 12:39 


21/09/21
17
Александрович в сообщении #1533817 писал(а):
traineeflow в сообщении #1533808 писал(а):
По среднему я делаю вывод, что индикатор2 завышает показания значительно больше, чем индикатор1.

Вывод можно сделать лишь проверив статистическую гипотезу. Вы это проверяли?

Значение t-теста Стьюдента для проверки гипотезы о равенстве средних для двух выборок получилось $9,55; P \ll 0,001$. Значит, средние не равны? Смущает, что выборки имеют не нормальное распределение.

 Профиль  
                  
 
 Posted automatically
Сообщение04.10.2021, 12:56 
Заслуженный участник


09/05/12
25179
 i  Тема перемещена из форума «Помогите решить / разобраться (М)» в форум «Карантин»
b]traineeflow[/b], все-таки наберите формулы и обозначения во всех сообщениях темы нормально (краткие инструкции: «Краткий FAQ по тегу [math]» и видеоролик Как записывать формулы).

Исправьте все Ваши ошибки и сообщите об этом в теме Сообщение в карантине исправлено.
Настоятельно рекомендуется ознакомиться с темами Что такое карантин и что нужно делать, чтобы там оказаться и Правила научного форума.

 Профиль  
                  
 
 Posted automatically
Сообщение04.10.2021, 20:07 
Заслуженный участник


09/05/12
25179
 i  Тема перемещена из форума «Карантин» в форум «Помогите решить / разобраться (М)»

 Профиль  
                  
 
 Re: Как оценить статистическую разницу
Сообщение05.10.2021, 02:09 
Аватара пользователя


21/01/09
3925
Дивногорск
traineeflow в сообщении #1533846 писал(а):
Смущает, что выборки имеют не нормальное распределение.
Для таких выборок парный t-критерий Стьюдента не применяется. А вы проверяли выборки на нормальность?

 Профиль  
                  
 
 Re: Как оценить статистическую разницу
Сообщение05.10.2021, 07:49 


21/09/21
17
Александрович в сообщении #1533980 писал(а):
А вы проверяли выборки на нормальность?

Проверял для такой таблицы:
Отклонение_Кол.откл.И1_Кол.отклИ2
-0,5___ ______1__________0
-0,4___ ______2__________1
И т.д.

Метод Шапиро-Вилк. Для И1 $P=10^{-6}$, для И2 $P=0,026$

-- 05.10.2021, 08:32 --

Александрович в сообщении #1533301 писал(а):
traineeflow в сообщении #1533300 писал(а):
$y = 1,24x$
Это статистически значимо отличается от 1?

Никак не пойму, как это посчитать. Взял короткий пример, и... Если уравнение $y=a \cdot x + b$, то расчет по формулам ниже совпадает с результатами пакета анализа Excel и PAST:
$$t_a= \frac a {S_a}$$
$$S_a=\frac {S_\text{ост}} {\sigma_x \cdot \sqrt{n}}$$
$${S_\text{ост}}=\sqrt{\frac {\sum{(y-y_x)^2}} {n-2}}$$
А если уравнение $y=a \cdot x, то расчет не совпадает ни с Excel ни с PAST: не совпадает $S_a$ :-(

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 42 ]  На страницу Пред.  1, 2, 3

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group