Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия, Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки
Имеется некоторая выборка с данными за несколько лет. Каждый прецедент в этой выборке описывается датой (с точностью до часа) и конкретным классом (число от 0 до 38). Данных несколько сот тысяч. Естественно возникает вопрос о выявлении временных участков со стационарным распределением на множестве классов.
В самом простом случае можно посчитать распределение вероятностей для каждого года. Далее сравниваются эти распределения между собой с помощью расстояния хи-квадрат.
Собственно вопрос: для проверки статистического различия распределений полученное расстояние сравнивают с критическими значениями для распределения хи-квадрат. В конкретно этом случае требуется для распределения с.в. из n состояний использовать хи-квадрат с n-1 степенью свободы. Проблема заключается в расхождении с "чувственным восприятием": например, вероятность некоторого состояния изменилась с 10% до 20%, то есть в целых 2 раза, но стат. тест говорит, что распределения одинаковы. Это результат неправильного выбора числа степеней свободы для хи-квадрат (или результат использования несимметричной "метрики") или чувства все-таки врут?
И вообще, может есть какие-то более общие методы выявления участков стационарности?
Это результат неправильного выбора числа степеней свободы для хи-квадрат (или результат использования несимметричной "метрики") или чувства все-таки врут?
Есть ещё такое понятие как мощность теста, помогает при проверке чувст.