2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3
 
 Re: Как оценить статистическую разницу
Сообщение01.10.2021, 12:17 
Заслуженный участник


31/12/05
1527
traineeflow в сообщении #1533307 писал(а):
При уровне значимости 0,05 свой результат я интерпретирую так: 0,03 < 0,05, т.е. выборки различаются, но с вероятностью не более 5% могут и не различаться. А при уровне значимости 0,01 результат: 0,03 > 0,01, значит, выборки не различаются, но с вероятностью не более 1% могут и различаться? Бред?
Можно привести такую аналогию.

Слушается дело о признании вновь найденных картин известного художника подлинными. На суд приглашен эксперт, который по каким-то параметрам изучил новые картины и уже признанные подлинными и пришел к выводу: если проводить сравнение подлинных картин друг с другом, то в 3% случаев они отличаются друг от друга так же или сильнее, чем вновь найденные от подлинных.

А судье уже предстоит принять решение по своему внутреннему убеждению. Один судья скажет, что шанс менее 5% маловероятен и картины не могут быть подлинными, другой - что это в порядке вещей, потому что события с вероятностью 1% регулярно случаются.

(Зависимые выборки в этом случае означают, что сравниваются картины с аналогичным сюжетом.)

 Профиль  
                  
 
 Re: Как оценить статистическую разницу
Сообщение01.10.2021, 13:14 
Заслуженный участник
Аватара пользователя


11/03/08
10024
Москва
traineeflow в сообщении #1533307 писал(а):
Понятно, что при уровне значимости 0,05 делаем вывод, что выборки различаются. А если уровень значимости 0,01, то не различаются? При уровне значимости 0,05 свой результат я интерпретирую так: 0,03 < 0,05, т.е. выборки различаются, но с вероятностью не более 5% могут и не различаться. А при уровне значимости 0,01 результат: 0,03 > 0,01, значит, выборки не различаются, но с вероятностью не более 1% могут и различаться? Бред?


Это не так работает.
Есть нулевая гипотеза - например "выборки не различаются" (причём надо понять, по какому признаку различия ожидаются, различаются распределения, различаются матожидания и различаются дисперсии - это разные постановки, и список далеко не исчерпыващий).
Есть альтернативная гипотеза, что "различаются".
Сравниваем показатель, характеризующий различия. Какие-то различия есть, но они могут быть случайными. Поэтому находим, с какой вероятностью видимая нами или большая величина различий может появиться, если справедлива нулевая гипотеза. Условно выбранные, но общепринятые значения 5% и 1% (иногда выделяют ещё точку 10%, говоря, что статистически значимой разницы не выявили, но тенденция есть, так что есть резон попробовать набрать выборку побольше, авось выявим; но это "ориентир для себя", в публикациях обычно 5% или 1%). Можно сказать, что при 5% уровне мы примем случайные колебания за действительные различия в одном случае из 20, при 1% в одном из ста (т.е., чем меньше "уровень значимости", тем сильнее наш вывод).
Что касается Вашей задачи конкретно - то надо начинать не с выбора метода, а с выбора того, что, собственно, сравниваем. На какой вопрос отвечаем. А вопросов может быть много.
"Связан ли показатель индикатора со значением параметра?" - тут регрессия или корреляция работают.
"Как связаны шкалы индикатора и фактическое значение параметра?" - регрессия, возможно, и нелинейная.
"Индикатор и точный измеритель градуированы в одной шкале, есть ли систематическая ошибка (смещение)?" - оценка параметра сдвига и оценка значимости различий. Стьюдент, если верится в нормальность отклонений (не самих значений измеряемой величины, а отклонений измеренных значений от фактических), Манн-Уитни (ну, или скажу Вилкоксон, на самом деле надо не по названию метода смотреть, а по описанию, авторы учебников иногда названия меняют местами, благо разрабатывали непараметрические методы эти авторы в одно время) - если надежды на нормальность нет, а большие выбросы и т.п. вероятны.
"Систематическая ошибка убрана, что со случайной ошибкой?" - тесты для дисперсии и вообще мер разброса.
Я всё ещё не понял, что Вам нужно.

 Профиль  
                  
 
 Re: Как оценить статистическую разницу
Сообщение01.10.2021, 15:20 
Аватара пользователя


21/01/09
3928
Дивногорск
Евгений Машеров в сообщении #1533449 писал(а):
Я всё ещё не понял, что Вам нужно.
Я, тоже. Возможно ТС про "эффект обработки".

 Профиль  
                  
 
 Re: Как оценить статистическую разницу
Сообщение04.10.2021, 08:07 


21/09/21
17
Евгений Машеров в сообщении #1533449 писал(а):
traineeflow в сообщении #1533307 писал(а):
Понятно, что при уровне значимости 0,05 делаем вывод, что выборки различаются. А если уровень значимости 0,01, то не различаются? При уровне значимости 0,05 свой результат я интерпретирую так: 0,03 < 0,05, т.е. выборки различаются, но с вероятностью не более 5% могут и не различаться. А при уровне значимости 0,01 результат: 0,03 > 0,01, значит, выборки не различаются, но с вероятностью не более 1% могут и различаться? Бред?


Это не так работает.
Есть нулевая гипотеза - например "выборки не различаются" (причём надо понять, по какому признаку различия ожидаются, различаются распределения, различаются матожидания и различаются дисперсии - это разные постановки, и список далеко не исчерпыващий).
Есть альтернативная гипотеза, что "различаются".
Сравниваем показатель, характеризующий различия. Какие-то различия есть, но они могут быть случайными. Поэтому находим, с какой вероятностью видимая нами или большая величина различий может появиться, если справедлива нулевая гипотеза. Условно выбранные, но общепринятые значения 5% и 1% (иногда выделяют ещё точку 10%, говоря, что статистически значимой разницы не выявили, но тенденция есть, так что есть резон попробовать набрать выборку побольше, авось выявим; но это "ориентир для себя", в публикациях обычно 5% или 1%). Можно сказать, что при 5% уровне мы примем случайные колебания за действительные различия в одном случае из 20, при 1% в одном из ста (т.е., чем меньше "уровень значимости", тем сильнее наш вывод).
Что касается Вашей задачи конкретно - то надо начинать не с выбора метода, а с выбора того, что, собственно, сравниваем. На какой вопрос отвечаем. А вопросов может быть много.
"Связан ли показатель индикатора со значением параметра?" - тут регрессия или корреляция работают.
"Как связаны шкалы индикатора и фактическое значение параметра?" - регрессия, возможно, и нелинейная.
"Индикатор и точный измеритель градуированы в одной шкале, есть ли систематическая ошибка (смещение)?" - оценка параметра сдвига и оценка значимости различий. Стьюдент, если верится в нормальность отклонений (не самих значений измеряемой величины, а отклонений измеренных значений от фактических), Манн-Уитни (ну, или скажу Вилкоксон, на самом деле надо не по названию метода смотреть, а по описанию, авторы учебников иногда названия меняют местами, благо разрабатывали непараметрические методы эти авторы в одно время) - если надежды на нормальность нет, а большие выбросы и т.п. вероятны.
"Систематическая ошибка убрана, что со случайной ошибкой?" - тесты для дисперсии и вообще мер разброса.
Я всё ещё не понял, что Вам нужно.

Спасибо за разъяснения. Попробую сформулировать ответ на вопрос «На какой вопрос отвечаем?». Я дополнил свою таблицу колонками с разностью показаний между индикаторами и вольтметром.
Вольтметр_Индикатор 1_Индикатор 2_ДельтаИ1_ДельтаИ2
5,0_______8,5_________4,5_________+3,5_______-0,5
5,5_______8,7_________5,9_________+3,7_______+0,4
Итак 200 строк.
Мне нужно сравнить между собой эти разности. Я рассчитал среднее и дисперсии разностей. Вот они:
___________ДельтаИ1_ДельтаИ2
Среднее_____0,6_______6,8
Дисперсия__10,9______35,9
По среднему я делаю вывод, что индикатор2 завышает показания значительно больше, чем индикатор1.
По дисперсии я делаю вывод, что индикатор2 имеет бОльший разброс, чем индикатор1.
Итого: показания индикаторов различаются.
Если я не прав, прошу поправить.
Но достаточно ли этого и нет ли одного критерия, чтобы показать то, что показания индикаторов различаются?

 Профиль  
                  
 
 Re: Как оценить статистическую разницу
Сообщение04.10.2021, 09:18 
Аватара пользователя


21/01/09
3928
Дивногорск
traineeflow в сообщении #1533808 писал(а):
По среднему я делаю вывод, что индикатор2 завышает показания значительно больше, чем индикатор1.

Вывод можно сделать лишь проверив статистическую гипотезу. Вы это проверяли?

 Профиль  
                  
 
 Re: Как оценить статистическую разницу
Сообщение04.10.2021, 10:30 


21/09/21
17
Александрович в сообщении #1533817 писал(а):
traineeflow в сообщении #1533808 писал(а):
По среднему я делаю вывод, что индикатор2 завышает показания значительно больше, чем индикатор1.

Вывод можно сделать лишь проверив статистическую гипотезу. Вы это проверяли?

Я делал так:
Сформулировал гипотезы:
H0: отклонения в выборках И1 и И2 не различаются между собой.
H1: отклонения в выборках И1 и И2 различаются между собой.

Собрал все разности в таблицу:
Отклонение_Кол.откл.И1_Кол.отклИ2
-0,5___ ______1__________0
-0,4___ ______2__________1
И т.д.

Сгруппировал, чтобы сумма частот в строке была $ > 5$.
Задал теоретические частоты. Теоретические частоты для И1i и И2i одинаковые.
Рассчитал $\chi^2$ эмп. $ = 88,406$
Количество степеней свободы $ = 14$
Критическое значение $\chi^2$ $ = 23,7$ для $p = 0,05$
$\chi^2 > \chi^2_{krit} \Rightarrow H0 $ отвергается. Отклонения в выборках И1 и И2 различаются между собой $(P < 0,05)$.
Но выше писали что $\chi^2$ в данном случае не подходит :-( .

 Профиль  
                  
 
 Re: Как оценить статистическую разницу
Сообщение04.10.2021, 11:40 
Аватара пользователя


21/01/09
3928
Дивногорск
traineeflow в сообщении #1533827 писал(а):
Но выше писали что Хи-квадрат в данном случае не подходит
Потому что он применяется для несвязанных выборок.

 Профиль  
                  
 
 Re: Как оценить статистическую разницу
Сообщение04.10.2021, 12:39 


21/09/21
17
Александрович в сообщении #1533817 писал(а):
traineeflow в сообщении #1533808 писал(а):
По среднему я делаю вывод, что индикатор2 завышает показания значительно больше, чем индикатор1.

Вывод можно сделать лишь проверив статистическую гипотезу. Вы это проверяли?

Значение t-теста Стьюдента для проверки гипотезы о равенстве средних для двух выборок получилось $9,55; P \ll 0,001$. Значит, средние не равны? Смущает, что выборки имеют не нормальное распределение.

 Профиль  
                  
 
 Posted automatically
Сообщение04.10.2021, 12:56 
Заслуженный участник


09/05/12
25179
 i  Тема перемещена из форума «Помогите решить / разобраться (М)» в форум «Карантин»
b]traineeflow[/b], все-таки наберите формулы и обозначения во всех сообщениях темы нормально (краткие инструкции: «Краткий FAQ по тегу [math]» и видеоролик Как записывать формулы).

Исправьте все Ваши ошибки и сообщите об этом в теме Сообщение в карантине исправлено.
Настоятельно рекомендуется ознакомиться с темами Что такое карантин и что нужно делать, чтобы там оказаться и Правила научного форума.

 Профиль  
                  
 
 Posted automatically
Сообщение04.10.2021, 20:07 
Заслуженный участник


09/05/12
25179
 i  Тема перемещена из форума «Карантин» в форум «Помогите решить / разобраться (М)»

 Профиль  
                  
 
 Re: Как оценить статистическую разницу
Сообщение05.10.2021, 02:09 
Аватара пользователя


21/01/09
3928
Дивногорск
traineeflow в сообщении #1533846 писал(а):
Смущает, что выборки имеют не нормальное распределение.
Для таких выборок парный t-критерий Стьюдента не применяется. А вы проверяли выборки на нормальность?

 Профиль  
                  
 
 Re: Как оценить статистическую разницу
Сообщение05.10.2021, 07:49 


21/09/21
17
Александрович в сообщении #1533980 писал(а):
А вы проверяли выборки на нормальность?

Проверял для такой таблицы:
Отклонение_Кол.откл.И1_Кол.отклИ2
-0,5___ ______1__________0
-0,4___ ______2__________1
И т.д.

Метод Шапиро-Вилк. Для И1 $P=10^{-6}$, для И2 $P=0,026$

-- 05.10.2021, 08:32 --

Александрович в сообщении #1533301 писал(а):
traineeflow в сообщении #1533300 писал(а):
$y = 1,24x$
Это статистически значимо отличается от 1?

Никак не пойму, как это посчитать. Взял короткий пример, и... Если уравнение $y=a \cdot x + b$, то расчет по формулам ниже совпадает с результатами пакета анализа Excel и PAST:
$$t_a= \frac a {S_a}$$
$$S_a=\frac {S_\text{ост}} {\sigma_x \cdot \sqrt{n}}$$
$${S_\text{ост}}=\sqrt{\frac {\sum{(y-y_x)^2}} {n-2}}$$
А если уравнение $y=a \cdot x, то расчет не совпадает ни с Excel ни с PAST: не совпадает $S_a$ :-(

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 42 ]  На страницу Пред.  1, 2, 3

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: Geen


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group