Можно ли считать эту гипотезу статистической?

provincialka · 22.04.2017, 14:35

Попросила студентов привести пример статистической гипотезы. Вот отрывок из одного реферата:

Цитата:

Рассмотрим пример на фильтрации спама. Ошибка первого рода происходит, когда механизм блокировки/фильтрации спама ошибочно классифицирует легитимное email-сообщение как спам и препятствует его нормальной доставке. В то время как большинство «антиспам»-алгоритмов способны блокировать/фильтровать большой процент нежелательных email-сообщений, гораздо более важной задачей является минимизировать число «ложных тревог» (ошибочных блокировок нужных сообщений).
Ошибка второго рода происходит, когда антиспам-система ошибочно пропускает нежелательное сообщение, классифицируя его как «не спам». Низкий уровень таких ошибок является индикатором эффективности антиспам-алгоритма. Пока не удалось создать антиспамовую систему без корреляции между вероятностью ошибок первого и второго рода. Вероятность пропустить спам у современных систем колеблется в пределах от 1% до 30%. Вероятность ошибочно отвергнуть валидное сообщение — от 0,001 % до 3 %. Выбор системы и её настроек зависит от условий конкретного получателя: для одних получателей риск потерять 1% хорошей почты оценивается как незначительный, для других же потеря даже 0,1% является недопустимой.

Мне кажется, что проверяемая здесь гипотеза -- не статистическая. Собственно, она и не сформулирована явно. Я понимаю так, гипотеза "Данное сообщение -- спам". Ну, и где здесь статистика? Где случайная величина? Где вероятностное постранство?

В простейшем опыте типа бросания монеты наша гипотеза не состоит ведь в том, что при каком-то броске выпадет орел. А только о частоте выпадания орлов вообще.

Конечно, на этом материале можно придумать кучу гипотез, типа "один алгоритм лучше другого". Но речь ведь не об этом.

Евгений Машеров · 22.04.2017, 17:08

Вероятностное пространство - вся совокупность мыслимых сообщений. Случайная величина - вектор, составленный из признаков спама. Статистика - встречаемость признаков для сообщений, являющихся и не являющихся спамом. Гипотеза - данное сообщение спам.
Пример с монетой - там ведь мы гипотезы можем строить не о выпадении орла, а о том, является ли монета с данным набором выпадений орлов честной, например.

provincialka · 23.04.2017, 19:02

Евгений Машеров в сообщении #1211649 писал(а):

Случайная величина - вектор, составленный из признаков спама.

Ну, это надо обдумать... "Признаки спама" и сам спам -- не одно и то же.
Покрайней мере, пример неочевидный и неудобный в качестве учебного. Собственно, мы обсуждали в это время вопрос отом, в каком предположении вычисляется вероятность ошибки первого рода. Я хотела навести на мысль, что "при условии выполнения $H_0$ ". Но сформулировать "с налету" эту самую $H_0$ не удалось.

worm2 · 23.04.2017, 21:21

Не знаю, поможет ли мой пост разобраться в ситуации. Но давайте в качестве примера вспомним один широко известный способ борьбы со спамом, основанный на статистике: наивный байесовский кллассификатор.

Насколько я понял, там априори принимается следующий постулат: есть две генеральные совокупности сообщений: "спам" и "не спам", которые отличаются частотами некоторых слов, входящих в них; для каждого слова существует фиксированная вероятность встретить его в генеральной совокупности "спам" и фиксированная вероятность встретить его в генеральной совокупности "не спам". Исходя из этого постулата для каждого сообщения формулируются две гипотезы: 1) это сообщение из генеральной совокупности "спам"; 2) оно же — из генеральной совокупности "не спам". Задача осложняется тем, что изначально для каждого слова неизвестна его вероятность в обеих совокупностях, и нужно на первом этапе обучать анализатор вручную, а на втором уже самообучаться. На обоих этапах после анализа сообщения и отнесения его к той или иной совокупности перерассчитываются вероятности для всех слов, входящих в него.

В общем случае мне видится такая картина: по-прежнему есть две генеральные совокупности сообщений: "спам" и "не спам", и каждое мыслимое сообщение с какой-то вероятностью может быть реализацией выборки как из "спама", так и из "не спама". Формулируются те же две гипотезы. Дальше, из практических соображений ясно, что два одинаковых полученных по почте сообщения — это, хоть и не редкость, но тривиальный случай, а мы хотим большего. То есть вместо сообщений мы должны рассматривать какие-то информативные дайджесты, функции от них. В первую очередь в голову приходят функции, результатами которых являются числовые вектора (дискретные или непрерывные), которые уже можно рассматривать как случайные величины.
Но есть ли какой-то практический толк от такой абстрактной картины?

Евгений Машеров · 25.04.2017, 08:54

Цитата:

A statistical hypothesis, sometimes called confirmatory data analysis, is a hypothesis that is testable on the basis of observing a process that is modeled via a set of random variables

(Это цитата из вторых рук, но ссылаются на пересмотренное издание Кендалла и Стюарта)
Так что вроде подходит.
А тут модель включает смесь двух многомерных распределений векторов сигнатур, разных для разных компонент смеси - спама и неспама, и строится гипотеза о том, что это спам. Может быть, учитываются априорные вероятности или стоимости ошибки классификации.
Как учебный пример, может, и плохо, но не тем, что "не статистические гипотезы", а дополнительными деталями реализации, не имеющими отношения к статистике. Но как пример "со стороны студента" скорее хорошо.

alisa-lebovski · 27.04.2017, 21:59

Конечно, это статистическая гипотеза. Несколько лет назад я даже слушала доклад на эту тему на конференции.

Проблема в том, что у нас есть образцы спама - когда человек нажимает кнопку "Это спам", но не хватает образцов не-спама, потому что обычные письма программа анализировать юридически не имеет права, приходится использовать какие-то иные тексты.

Александрович · 28.04.2017, 02:18

provincialka в сообщении #1212024 писал(а):

Я хотела навести на мысль, что "при условии выполнения $H_0$ ". Но сформулировать "с налету" эту самую $H_0$ не удалось.

Нулевая гипотеза - письмо является спамом.

Научный форум dxdy

Можно ли считать эту гипотезу статистической?