Попросила студентов привести пример статистической гипотезы. Вот отрывок из одного реферата:
Цитата:
Рассмотрим пример на фильтрации спама. Ошибка первого рода происходит, когда механизм блокировки/фильтрации спама ошибочно классифицирует легитимное email-сообщение как спам и препятствует его нормальной доставке. В то время как большинство «антиспам»-алгоритмов способны блокировать/фильтровать большой процент нежелательных email-сообщений, гораздо более важной задачей является минимизировать число «ложных тревог» (ошибочных блокировок нужных сообщений).
Ошибка второго рода происходит, когда антиспам-система ошибочно пропускает нежелательное сообщение, классифицируя его как «не спам». Низкий уровень таких ошибок является индикатором эффективности антиспам-алгоритма. Пока не удалось создать антиспамовую систему без корреляции между вероятностью ошибок первого и второго рода. Вероятность пропустить спам у современных систем колеблется в пределах от 1% до 30%. Вероятность ошибочно отвергнуть валидное сообщение — от 0,001 % до 3 %. Выбор системы и её настроек зависит от условий конкретного получателя: для одних получателей риск потерять 1% хорошей почты оценивается как незначительный, для других же потеря даже 0,1% является недопустимой.
Мне кажется, что проверяемая здесь гипотеза -- не статистическая. Собственно, она и не сформулирована явно. Я понимаю так, гипотеза "Данное сообщение -- спам". Ну, и где здесь статистика? Где случайная величина? Где вероятностное постранство?
В простейшем опыте типа бросания монеты наша гипотеза не состоит ведь в том, что при каком-то броске выпадет орел. А только о частоте выпадания орлов вообще.
Конечно, на этом материале можно придумать кучу гипотез, типа "один алгоритм лучше другого". Но речь ведь не об этом.