2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Можно ли считать эту гипотезу статистической?
Сообщение22.04.2017, 14:35 
Заслуженный участник
Аватара пользователя


18/01/13
12044
Казань
Попросила студентов привести пример статистической гипотезы. Вот отрывок из одного реферата:
Цитата:
Рассмотрим пример на фильтрации спама. Ошибка первого рода происходит, когда механизм блокировки/фильтрации спама ошибочно классифицирует легитимное email-сообщение как спам и препятствует его нормальной доставке. В то время как большинство «антиспам»-алгоритмов способны блокировать/фильтровать большой процент нежелательных email-сообщений, гораздо более важной задачей является минимизировать число «ложных тревог» (ошибочных блокировок нужных сообщений).
Ошибка второго рода происходит, когда антиспам-система ошибочно пропускает нежелательное сообщение, классифицируя его как «не спам». Низкий уровень таких ошибок является индикатором эффективности антиспам-алгоритма. Пока не удалось создать антиспамовую систему без корреляции между вероятностью ошибок первого и второго рода. Вероятность пропустить спам у современных систем колеблется в пределах от 1% до 30%. Вероятность ошибочно отвергнуть валидное сообщение — от 0,001 % до 3 %. Выбор системы и её настроек зависит от условий конкретного получателя: для одних получателей риск потерять 1% хорошей почты оценивается как незначительный, для других же потеря даже 0,1% является недопустимой.

Мне кажется, что проверяемая здесь гипотеза -- не статистическая. Собственно, она и не сформулирована явно. Я понимаю так, гипотеза "Данное сообщение -- спам". Ну, и где здесь статистика? Где случайная величина? Где вероятностное постранство?

В простейшем опыте типа бросания монеты наша гипотеза не состоит ведь в том, что при каком-то броске выпадет орел. А только о частоте выпадания орлов вообще.

Конечно, на этом материале можно придумать кучу гипотез, типа "один алгоритм лучше другого". Но речь ведь не об этом.

 Профиль  
                  
 
 Re: Можно ли считать эту гипотезу статистической?
Сообщение22.04.2017, 17:08 
Заслуженный участник
Аватара пользователя


11/03/08
9529
Москва
Вероятностное пространство - вся совокупность мыслимых сообщений. Случайная величина - вектор, составленный из признаков спама. Статистика - встречаемость признаков для сообщений, являющихся и не являющихся спамом. Гипотеза - данное сообщение спам.
Пример с монетой - там ведь мы гипотезы можем строить не о выпадении орла, а о том, является ли монета с данным набором выпадений орлов честной, например.

 Профиль  
                  
 
 Re: Можно ли считать эту гипотезу статистической?
Сообщение23.04.2017, 19:02 
Заслуженный участник
Аватара пользователя


18/01/13
12044
Казань
Евгений Машеров в сообщении #1211649 писал(а):
Случайная величина - вектор, составленный из признаков спама.
Ну, это надо обдумать... "Признаки спама" и сам спам -- не одно и то же.
Покрайней мере, пример неочевидный и неудобный в качестве учебного. Собственно, мы обсуждали в это время вопрос отом, в каком предположении вычисляется вероятность ошибки первого рода. Я хотела навести на мысль, что "при условии выполнения $H_0$". Но сформулировать "с налету" эту самую $H_0$ не удалось.

 Профиль  
                  
 
 Re: Можно ли считать эту гипотезу статистической?
Сообщение23.04.2017, 21:21 
Заслуженный участник
Аватара пользователя


01/08/06
3053
Уфа
Не знаю, поможет ли мой пост разобраться в ситуации. Но давайте в качестве примера вспомним один широко известный способ борьбы со спамом, основанный на статистике: наивный байесовский кллассификатор.

Насколько я понял, там априори принимается следующий постулат: есть две генеральные совокупности сообщений: "спам" и "не спам", которые отличаются частотами некоторых слов, входящих в них; для каждого слова существует фиксированная вероятность встретить его в генеральной совокупности "спам" и фиксированная вероятность встретить его в генеральной совокупности "не спам". Исходя из этого постулата для каждого сообщения формулируются две гипотезы: 1) это сообщение из генеральной совокупности "спам"; 2) оно же — из генеральной совокупности "не спам". Задача осложняется тем, что изначально для каждого слова неизвестна его вероятность в обеих совокупностях, и нужно на первом этапе обучать анализатор вручную, а на втором уже самообучаться. На обоих этапах после анализа сообщения и отнесения его к той или иной совокупности перерассчитываются вероятности для всех слов, входящих в него.

В общем случае мне видится такая картина: по-прежнему есть две генеральные совокупности сообщений: "спам" и "не спам", и каждое мыслимое сообщение с какой-то вероятностью может быть реализацией выборки как из "спама", так и из "не спама". Формулируются те же две гипотезы. Дальше, из практических соображений ясно, что два одинаковых полученных по почте сообщения — это, хоть и не редкость, но тривиальный случай, а мы хотим большего. То есть вместо сообщений мы должны рассматривать какие-то информативные дайджесты, функции от них. В первую очередь в голову приходят функции, результатами которых являются числовые вектора (дискретные или непрерывные), которые уже можно рассматривать как случайные величины.
Но есть ли какой-то практический толк от такой абстрактной картины?

 Профиль  
                  
 
 Re: Можно ли считать эту гипотезу статистической?
Сообщение25.04.2017, 08:54 
Заслуженный участник
Аватара пользователя


11/03/08
9529
Москва
Цитата:
A statistical hypothesis, sometimes called confirmatory data analysis, is a hypothesis that is testable on the basis of observing a process that is modeled via a set of random variables

(Это цитата из вторых рук, но ссылаются на пересмотренное издание Кендалла и Стюарта)
Так что вроде подходит.
А тут модель включает смесь двух многомерных распределений векторов сигнатур, разных для разных компонент смеси - спама и неспама, и строится гипотеза о том, что это спам. Может быть, учитываются априорные вероятности или стоимости ошибки классификации.
Как учебный пример, может, и плохо, но не тем, что "не статистические гипотезы", а дополнительными деталями реализации, не имеющими отношения к статистике. Но как пример "со стороны студента" скорее хорошо.

 Профиль  
                  
 
 Re: Можно ли считать эту гипотезу статистической?
Сообщение27.04.2017, 21:59 
Заслуженный участник
Аватара пользователя


05/12/09
1769
Москва
Конечно, это статистическая гипотеза. Несколько лет назад я даже слушала доклад на эту тему на конференции.

Проблема в том, что у нас есть образцы спама - когда человек нажимает кнопку "Это спам", но не хватает образцов не-спама, потому что обычные письма программа анализировать юридически не имеет права, приходится использовать какие-то иные тексты.

 Профиль  
                  
 
 Re: Можно ли считать эту гипотезу статистической?
Сообщение28.04.2017, 02:18 
Аватара пользователя


21/01/09
3923
Дивногорск
provincialka в сообщении #1212024 писал(а):
Я хотела навести на мысль, что "при условии выполнения $H_0$". Но сформулировать "с налету" эту самую $H_0$ не удалось.

Нулевая гипотеза - письмо является спамом.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 7 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: bot


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group