Выбор ближайшего прецедента по набору значений признаков

eugrita · 15/04/10 985 г.Москва

Речь пойдет об аналоге выбора ближайшей точки к заданной в n-мерном пространстве значений признаков.
В мат.статистике, кластерном анализе это обычное евклидово расстояние, известна процедура кластерного анализа, "метод ближайшего соседа".
Понятие прецедент пришло к нам из области информационной безопасности. Будем считать что есть некоторый полный набор свойств(признаков), часть их которых количественная, часть-качественная , булева, т.е. либо есть либо нет. Под прецедентом будем понимать некую стандартную ситуацию, характеризуемую набором некоторых признаков и их значений.
Например, понятия прецедентов можно применить к области компьютерных атак злоумышленников и компьютерных вирусов. Важно видимо понятие прецедентов и для диагностики заболеваний в медицине.
Актуальной является проблема поиска ближайшего прецедента по заданному набору значений признаков..
Отличие от кластерного и многомерного статистического анализа прежде всего в том что
а)каждый прецедент характеризуется своим индивидуальным набором признаков (в т.ч. может и качественных) и в этом смысле он не является точкой одного n-мерного пространства
б)прецедент может видимо характеризоваться не точечным а интервальным значением некоторого признака. Например в предметной области информационной безопасности прецедент «Атака 2го рода» характеризуется параметрами «Количество запросов» , «Количество различных IP адресов « для которых характерны интервальные значения от какого-то предела до бесконечности.
Вhttp://citforum.ru/consulting/BI/karpov/ (1)
приводится формула меры близости (2)
$\frac{\sum w_j \dot sim(x_{ij},x_{kj})}{\sum w_{j}}$
где $x_{ij}$ - вес j-го признака, sim - функция подобия (метрика), $x_{ij}$ и $x_{ik}$ - значения признака для текущего случая и прецедента, соответственно.
Мне непонятно применение формулы (2) в связи с указанным выше свойством а),что каждый прецедент характеризуется своим индивидуальным набором признаков. И метрика рассматривается не в полном пространстве признаков а в подпространстве проекций.
Т.е. пускай например текущий случай характеризуется значениями 3 признаков
$X_1=100 X_2=200 X_3=300$
И скажем есть 2 прецедента, в Прецеденте 1 есть все 3 признака и имеют значения $X_1=500 X_2=600 X_3=700$
А в Прецеденте 2 есть только 2 признака из 3-х, но зато имеют значения
$X_1=105 X_2=205$
1)Какому прецеденту отдать предпочтение по близости к текущему случаю 1 или 2?
2) Можно ли вообще формализовать этой или какой-то другой формулой описанную ситуацию? (Другими словами, насколько ухудщает степень близости текущего случая и прецедента отсутствие у последнего части параметров случая).

_Ivana · 05/09/12 2587

Есть девушка, 90-60-90 и неплохо готовит. Кому она больше подойдет в качестве любовницы - Васе, который хочет 95-65-95 и не важно как готовит, они в ресторанах обедать будут, или Пете, который хочет 500-300-500 и чтобы отлично готовила?

provincialka · 18/01/13 12065 Казань

1. В кластерном анализе используют не только евклидову метрику, но и многие другие. В том числе, подходящие для порядковых показателей (манхэттенская), и даже для номинальных (Хэмминга).
2. Случай неполных (разноразмерных) данных формализовать можно. И даже огромным числом способов. Но какой из них "правильный"? Сначала надо решить проблему на смысловом, качественном уровне, а потом уже пытаться формализовать.

Lukum · 23/05/12 ∞ 1245

Справедливости ради.
Смысл в сообщениях Gobino в данной ветке присутствует.
По сообщениям provincialka видно, что она не сталкивалась с такими задачами.

arseniiv в сообщении #834658 писал(а):

Никаким. Я бы не согласился что-то делать с моделью, в которой не разбираюсь хотя бы по причине того, что она нормально не описана.

А жизнь требует решать такие задачи, требует описывать, создавать и модифицировать модели на "ходу", постепенно разбираясь в предметной области.

eugrita в сообщении #834435 писал(а):

1)Какому прецеденту отдать предпочтение по близости к текущему случаю 1 или 2?
2) Можно ли вообще формализовать этой или какой-то другой формулой описанную ситуацию? (Другими словами, насколько ухудщает степень близости текущего случая и прецедента отсутствие у последнего части параметров случая).

1. Зависит от предметной области.
Например, можно создать критерий качества решения.
2. Можно формализовать. Например, путем введения кривых (гиперповерхностей) безразличия.

eugrita · 15/04/10 985 г.Москва

Я думаю, чтобы быть ближе к реальности видимо надо
1)перейти к интервальным значениям параметра вместо точечных.
т.е. расстояние от числового параметра запроса до значения параметра конкретного прецедента оценивать как расстояние от точки до интервала
$d=X_{\min}-v$ при $v < X_{\min}$
$d=0$ при $X_{\min} < v < X_{\max}$
$d=v-X_{\max}$ при $v > X_{\max}$
(интервалы могут быть и неограниченными)
где $X_{\min},X_{\max}$ нижнее и верхнее граничное значение параметра прецедента
2)в случае качественных признаков доля мера их близости - количество $n$ совпадающих по значениям из общего набора качественных признаков $N$ запроса и прецедента - это вроде мера Хэмминга. (иногда используют и нормированную меру $\frac{n}{N}$ )
3)видимо надо ввести дополнительные предпочтения (упорядоченности)
например, считать принудительно, что прецедент имеющий больше общих параметров с запросом ближе к запросу, чем прецедент имеющий меньше общих параметров независимо от степени расхождения этих параметров.
А врутри классов имеющих общее число параметров уже упорядочивать по расстоянию (формула выше).
Вообще эти игры с весами и предпочтениями напоминают мне маркетинг или классическую задачу по выбору предпочтений разных сортов пива (английсий статистикработавший на пивзаводе)

Научный форум dxdy

Правила форума

Выбор ближайшего прецедента по набору значений признаков

Кто сейчас на конференции