2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.

Если Вы хотите задать новый вопрос, то не дописывайте его в существующую тему, а создайте новую в корневом разделе "Помогите решить/разобраться (М)".

Если Вы зададите новый вопрос в существующей теме, то в случае нарушения оформления или других правил форума Ваше сообщение и все ответы на него могут быть удалены без предупреждения.

Не ищите на этом форуме халяву, правила запрещают участникам публиковать готовые решения стандартных учебных задач. Автор вопроса обязан привести свои попытки решения и указать конкретные затруднения.

Обязательно просмотрите тему Правила данного раздела, иначе Ваша тема может быть удалена или перемещена в Карантин, а Вы так и не узнаете, почему.



Начать новую тему Ответить на тему
 
 Выбор ближайшего прецедента по набору значений признаков
Сообщение09.03.2014, 01:29 


15/04/10
985
г.Москва
Речь пойдет об аналоге выбора ближайшей точки к заданной в n-мерном пространстве значений признаков.
В мат.статистике, кластерном анализе это обычное евклидово расстояние, известна процедура кластерного анализа, "метод ближайшего соседа".
Понятие прецедент пришло к нам из области информационной безопасности. Будем считать что есть некоторый полный набор свойств(признаков), часть их которых количественная, часть-качественная , булева, т.е. либо есть либо нет. Под прецедентом будем понимать некую стандартную ситуацию, характеризуемую набором некоторых признаков и их значений.
Например, понятия прецедентов можно применить к области компьютерных атак злоумышленников и компьютерных вирусов. Важно видимо понятие прецедентов и для диагностики заболеваний в медицине.
Актуальной является проблема поиска ближайшего прецедента по заданному набору значений признаков..
Отличие от кластерного и многомерного статистического анализа прежде всего в том что
а)каждый прецедент характеризуется своим индивидуальным набором признаков (в т.ч. может и качественных) и в этом смысле он не является точкой одного n-мерного пространства
б)прецедент может видимо характеризоваться не точечным а интервальным значением некоторого признака. Например в предметной области информационной безопасности прецедент «Атака 2го рода» характеризуется параметрами «Количество запросов» , «Количество различных IP адресов « для которых характерны интервальные значения от какого-то предела до бесконечности.
Вhttp://citforum.ru/consulting/BI/karpov/ (1)
приводится формула меры близости (2)
$\frac{\sum w_j \dot sim(x_{ij},x_{kj})}{\sum w_{j}}$
где $x_{ij} $ - вес j-го признака, sim - функция подобия (метрика), $x_{ij}$ и $x_{ik}$ - значения признака для текущего случая и прецедента, соответственно.
Мне непонятно применение формулы (2) в связи с указанным выше свойством а),что каждый прецедент характеризуется своим индивидуальным набором признаков. И метрика рассматривается не в полном пространстве признаков а в подпространстве проекций.
Т.е. пускай например текущий случай характеризуется значениями 3 признаков
$X_1=100  X_2=200 X_3=300$
И скажем есть 2 прецедента, в Прецеденте 1 есть все 3 признака и имеют значения $X_1=500  X_2=600 X_3=700$
А в Прецеденте 2 есть только 2 признака из 3-х, но зато имеют значения
$X_1=105  X_2=205$
1)Какому прецеденту отдать предпочтение по близости к текущему случаю 1 или 2?
2) Можно ли вообще формализовать этой или какой-то другой формулой описанную ситуацию?
(Другими словами, насколько ухудщает степень близости текущего случая и прецедента отсутствие у последнего части параметров случая).

 Профиль  
                  
 
 Re: Выбор ближайшего прецедента по набору значений признаков
Сообщение09.03.2014, 13:10 


05/09/12
2587
Есть девушка, 90-60-90 и неплохо готовит. Кому она больше подойдет в качестве любовницы - Васе, который хочет 95-65-95 и не важно как готовит, они в ресторанах обедать будут, или Пете, который хочет 500-300-500 и чтобы отлично готовила?

 Профиль  
                  
 
 Re: Выбор ближайшего прецедента по набору значений признаков
Сообщение09.03.2014, 14:09 
Заслуженный участник
Аватара пользователя


18/01/13
12065
Казань
1. В кластерном анализе используют не только евклидову метрику, но и многие другие. В том числе, подходящие для порядковых показателей (манхэттенская), и даже для номинальных (Хэмминга).
2. Случай неполных (разноразмерных) данных формализовать можно. И даже огромным числом способов. Но какой из них "правильный"? Сначала надо решить проблему на смысловом, качественном уровне, а потом уже пытаться формализовать.

 Профиль  
                  
 
 Re: Выбор ближайшего прецедента по набору значений признаков
Сообщение10.03.2014, 05:40 


23/05/12

1245
Справедливости ради.
Смысл в сообщениях Gobino в данной ветке присутствует.
По сообщениям provincialka видно, что она не сталкивалась с такими задачами.
arseniiv в сообщении #834658 писал(а):
Никаким. Я бы не согласился что-то делать с моделью, в которой не разбираюсь хотя бы по причине того, что она нормально не описана.

А жизнь требует решать такие задачи, требует описывать, создавать и модифицировать модели на "ходу", постепенно разбираясь в предметной области.

eugrita в сообщении #834435 писал(а):
1)Какому прецеденту отдать предпочтение по близости к текущему случаю 1 или 2?
2) Можно ли вообще формализовать этой или какой-то другой формулой описанную ситуацию?
(Другими словами, насколько ухудщает степень близости текущего случая и прецедента отсутствие у последнего части параметров случая).

1. Зависит от предметной области.
Например, можно создать критерий качества решения.
2. Можно формализовать. Например, путем введения кривых (гиперповерхностей) безразличия.

 Профиль  
                  
 
 Re: Выбор ближайшего прецедента по набору значений признаков
Сообщение15.03.2014, 08:24 


15/04/10
985
г.Москва
Я думаю, чтобы быть ближе к реальности видимо надо
1)перейти к интервальным значениям параметра вместо точечных.
т.е. расстояние от числового параметра запроса до значения параметра конкретного прецедента оценивать как расстояние от точки до интервала
$d=X_{\min}-v$ при $v < X_{\min}$
$d=0$ при $ X_{\min} < v < X_{\max}$
$d=v-X_{\max}$ при $v > X_{\max}$
(интервалы могут быть и неограниченными)
где $X_{\min},X_{\max}$ нижнее и верхнее граничное значение параметра прецедента
2)в случае качественных признаков доля мера их близости - количество $n$ совпадающих по значениям из общего набора качественных признаков $N$ запроса и прецедента - это вроде мера Хэмминга. (иногда используют и нормированную меру $\frac{n}{N}$ )
3)видимо надо ввести дополнительные предпочтения (упорядоченности)
например, считать принудительно, что прецедент имеющий больше общих параметров с запросом ближе к запросу, чем прецедент имеющий меньше общих параметров независимо от степени расхождения этих параметров.
А врутри классов имеющих общее число параметров уже упорядочивать по расстоянию (формула выше).
Вообще эти игры с весами и предпочтениями напоминают мне маркетинг или классическую задачу по выбору предпочтений разных сортов пива (английсий статистикработавший на пивзаводе)

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 5 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group