2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Можно ли считать эту гипотезу статистической?
Сообщение22.04.2017, 14:35 
Заслуженный участник
Аватара пользователя


18/01/13
12044
Казань
Попросила студентов привести пример статистической гипотезы. Вот отрывок из одного реферата:
Цитата:
Рассмотрим пример на фильтрации спама. Ошибка первого рода происходит, когда механизм блокировки/фильтрации спама ошибочно классифицирует легитимное email-сообщение как спам и препятствует его нормальной доставке. В то время как большинство «антиспам»-алгоритмов способны блокировать/фильтровать большой процент нежелательных email-сообщений, гораздо более важной задачей является минимизировать число «ложных тревог» (ошибочных блокировок нужных сообщений).
Ошибка второго рода происходит, когда антиспам-система ошибочно пропускает нежелательное сообщение, классифицируя его как «не спам». Низкий уровень таких ошибок является индикатором эффективности антиспам-алгоритма. Пока не удалось создать антиспамовую систему без корреляции между вероятностью ошибок первого и второго рода. Вероятность пропустить спам у современных систем колеблется в пределах от 1% до 30%. Вероятность ошибочно отвергнуть валидное сообщение — от 0,001 % до 3 %. Выбор системы и её настроек зависит от условий конкретного получателя: для одних получателей риск потерять 1% хорошей почты оценивается как незначительный, для других же потеря даже 0,1% является недопустимой.

Мне кажется, что проверяемая здесь гипотеза -- не статистическая. Собственно, она и не сформулирована явно. Я понимаю так, гипотеза "Данное сообщение -- спам". Ну, и где здесь статистика? Где случайная величина? Где вероятностное постранство?

В простейшем опыте типа бросания монеты наша гипотеза не состоит ведь в том, что при каком-то броске выпадет орел. А только о частоте выпадания орлов вообще.

Конечно, на этом материале можно придумать кучу гипотез, типа "один алгоритм лучше другого". Но речь ведь не об этом.

 Профиль  
                  
 
 Re: Можно ли считать эту гипотезу статистической?
Сообщение22.04.2017, 17:08 
Заслуженный участник
Аватара пользователя


11/03/08
9490
Москва
Вероятностное пространство - вся совокупность мыслимых сообщений. Случайная величина - вектор, составленный из признаков спама. Статистика - встречаемость признаков для сообщений, являющихся и не являющихся спамом. Гипотеза - данное сообщение спам.
Пример с монетой - там ведь мы гипотезы можем строить не о выпадении орла, а о том, является ли монета с данным набором выпадений орлов честной, например.

 Профиль  
                  
 
 Re: Можно ли считать эту гипотезу статистической?
Сообщение23.04.2017, 19:02 
Заслуженный участник
Аватара пользователя


18/01/13
12044
Казань
Евгений Машеров в сообщении #1211649 писал(а):
Случайная величина - вектор, составленный из признаков спама.
Ну, это надо обдумать... "Признаки спама" и сам спам -- не одно и то же.
Покрайней мере, пример неочевидный и неудобный в качестве учебного. Собственно, мы обсуждали в это время вопрос отом, в каком предположении вычисляется вероятность ошибки первого рода. Я хотела навести на мысль, что "при условии выполнения $H_0$". Но сформулировать "с налету" эту самую $H_0$ не удалось.

 Профиль  
                  
 
 Re: Можно ли считать эту гипотезу статистической?
Сообщение23.04.2017, 21:21 
Заслуженный участник
Аватара пользователя


01/08/06
3049
Уфа
Не знаю, поможет ли мой пост разобраться в ситуации. Но давайте в качестве примера вспомним один широко известный способ борьбы со спамом, основанный на статистике: наивный байесовский кллассификатор.

Насколько я понял, там априори принимается следующий постулат: есть две генеральные совокупности сообщений: "спам" и "не спам", которые отличаются частотами некоторых слов, входящих в них; для каждого слова существует фиксированная вероятность встретить его в генеральной совокупности "спам" и фиксированная вероятность встретить его в генеральной совокупности "не спам". Исходя из этого постулата для каждого сообщения формулируются две гипотезы: 1) это сообщение из генеральной совокупности "спам"; 2) оно же — из генеральной совокупности "не спам". Задача осложняется тем, что изначально для каждого слова неизвестна его вероятность в обеих совокупностях, и нужно на первом этапе обучать анализатор вручную, а на втором уже самообучаться. На обоих этапах после анализа сообщения и отнесения его к той или иной совокупности перерассчитываются вероятности для всех слов, входящих в него.

В общем случае мне видится такая картина: по-прежнему есть две генеральные совокупности сообщений: "спам" и "не спам", и каждое мыслимое сообщение с какой-то вероятностью может быть реализацией выборки как из "спама", так и из "не спама". Формулируются те же две гипотезы. Дальше, из практических соображений ясно, что два одинаковых полученных по почте сообщения — это, хоть и не редкость, но тривиальный случай, а мы хотим большего. То есть вместо сообщений мы должны рассматривать какие-то информативные дайджесты, функции от них. В первую очередь в голову приходят функции, результатами которых являются числовые вектора (дискретные или непрерывные), которые уже можно рассматривать как случайные величины.
Но есть ли какой-то практический толк от такой абстрактной картины?

 Профиль  
                  
 
 Re: Можно ли считать эту гипотезу статистической?
Сообщение25.04.2017, 08:54 
Заслуженный участник
Аватара пользователя


11/03/08
9490
Москва
Цитата:
A statistical hypothesis, sometimes called confirmatory data analysis, is a hypothesis that is testable on the basis of observing a process that is modeled via a set of random variables

(Это цитата из вторых рук, но ссылаются на пересмотренное издание Кендалла и Стюарта)
Так что вроде подходит.
А тут модель включает смесь двух многомерных распределений векторов сигнатур, разных для разных компонент смеси - спама и неспама, и строится гипотеза о том, что это спам. Может быть, учитываются априорные вероятности или стоимости ошибки классификации.
Как учебный пример, может, и плохо, но не тем, что "не статистические гипотезы", а дополнительными деталями реализации, не имеющими отношения к статистике. Но как пример "со стороны студента" скорее хорошо.

 Профиль  
                  
 
 Re: Можно ли считать эту гипотезу статистической?
Сообщение27.04.2017, 21:59 
Заслуженный участник
Аватара пользователя


05/12/09
1760
Москва
Конечно, это статистическая гипотеза. Несколько лет назад я даже слушала доклад на эту тему на конференции.

Проблема в том, что у нас есть образцы спама - когда человек нажимает кнопку "Это спам", но не хватает образцов не-спама, потому что обычные письма программа анализировать юридически не имеет права, приходится использовать какие-то иные тексты.

 Профиль  
                  
 
 Re: Можно ли считать эту гипотезу статистической?
Сообщение28.04.2017, 02:18 
Аватара пользователя


21/01/09
3923
Дивногорск
provincialka в сообщении #1212024 писал(а):
Я хотела навести на мысль, что "при условии выполнения $H_0$". Но сформулировать "с налету" эту самую $H_0$ не удалось.

Нулевая гипотеза - письмо является спамом.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 7 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group