Выбор ближайшего прецедента по набору значений признаков

eugrita · 09.03.2014, 01:29

Речь пойдет об аналоге выбора ближайшей точки к заданной в n-мерном пространстве значений признаков.
В мат.статистике, кластерном анализе это обычное евклидово расстояние, известна процедура кластерного анализа, "метод ближайшего соседа".
Понятие прецедент пришло к нам из области информационной безопасности. Будем считать что есть некоторый полный набор свойств(признаков), часть их которых количественная, часть-качественная , булева, т.е. либо есть либо нет. Под прецедентом будем понимать некую стандартную ситуацию, характеризуемую набором некоторых признаков и их значений.
Например, понятия прецедентов можно применить к области компьютерных атак злоумышленников и компьютерных вирусов. Важно видимо понятие прецедентов и для диагностики заболеваний в медицине.
Актуальной является проблема поиска ближайшего прецедента по заданному набору значений признаков..
Отличие от кластерного и многомерного статистического анализа прежде всего в том что
а)каждый прецедент характеризуется своим индивидуальным набором признаков (в т.ч. может и качественных) и в этом смысле он не является точкой одного n-мерного пространства
б)прецедент может видимо характеризоваться не точечным а интервальным значением некоторого признака. Например в предметной области информационной безопасности прецедент «Атака 2го рода» характеризуется параметрами «Количество запросов» , «Количество различных IP адресов « для которых характерны интервальные значения от какого-то предела до бесконечности.
Вhttp://citforum.ru/consulting/BI/karpov/ (1)
приводится формула меры близости (2)
$\frac{\sum w_j \dot sim(x_{ij},x_{kj})}{\sum w_{j}}$
где $x_{ij}$ - вес j-го признака, sim - функция подобия (метрика), $x_{ij}$ и $x_{ik}$ - значения признака для текущего случая и прецедента, соответственно.
Мне непонятно применение формулы (2) в связи с указанным выше свойством а),что каждый прецедент характеризуется своим индивидуальным набором признаков. И метрика рассматривается не в полном пространстве признаков а в подпространстве проекций.
Т.е. пускай например текущий случай характеризуется значениями 3 признаков
$X_1=100 X_2=200 X_3=300$
И скажем есть 2 прецедента, в Прецеденте 1 есть все 3 признака и имеют значения $X_1=500 X_2=600 X_3=700$
А в Прецеденте 2 есть только 2 признака из 3-х, но зато имеют значения
$X_1=105 X_2=205$
1)Какому прецеденту отдать предпочтение по близости к текущему случаю 1 или 2?
2) Можно ли вообще формализовать этой или какой-то другой формулой описанную ситуацию? (Другими словами, насколько ухудщает степень близости текущего случая и прецедента отсутствие у последнего части параметров случая).

_Ivana · 09.03.2014, 13:10

Есть девушка, 90-60-90 и неплохо готовит. Кому она больше подойдет в качестве любовницы - Васе, который хочет 95-65-95 и не важно как готовит, они в ресторанах обедать будут, или Пете, который хочет 500-300-500 и чтобы отлично готовила?

provincialka · 09.03.2014, 14:09

1. В кластерном анализе используют не только евклидову метрику, но и многие другие. В том числе, подходящие для порядковых показателей (манхэттенская), и даже для номинальных (Хэмминга).
2. Случай неполных (разноразмерных) данных формализовать можно. И даже огромным числом способов. Но какой из них "правильный"? Сначала надо решить проблему на смысловом, качественном уровне, а потом уже пытаться формализовать.

Lukum · 10.03.2014, 05:40

Справедливости ради.
Смысл в сообщениях Gobino в данной ветке присутствует.
По сообщениям provincialka видно, что она не сталкивалась с такими задачами.

arseniiv в сообщении #834658 писал(а):

Никаким. Я бы не согласился что-то делать с моделью, в которой не разбираюсь хотя бы по причине того, что она нормально не описана.

А жизнь требует решать такие задачи, требует описывать, создавать и модифицировать модели на "ходу", постепенно разбираясь в предметной области.

eugrita в сообщении #834435 писал(а):

1)Какому прецеденту отдать предпочтение по близости к текущему случаю 1 или 2?
2) Можно ли вообще формализовать этой или какой-то другой формулой описанную ситуацию? (Другими словами, насколько ухудщает степень близости текущего случая и прецедента отсутствие у последнего части параметров случая).

1. Зависит от предметной области.
Например, можно создать критерий качества решения.
2. Можно формализовать. Например, путем введения кривых (гиперповерхностей) безразличия.

eugrita · 15.03.2014, 08:24

Я думаю, чтобы быть ближе к реальности видимо надо
1)перейти к интервальным значениям параметра вместо точечных.
т.е. расстояние от числового параметра запроса до значения параметра конкретного прецедента оценивать как расстояние от точки до интервала
$d=X_{\min}-v$ при $v < X_{\min}$
$d=0$ при $X_{\min} < v < X_{\max}$
$d=v-X_{\max}$ при $v > X_{\max}$
(интервалы могут быть и неограниченными)
где $X_{\min},X_{\max}$ нижнее и верхнее граничное значение параметра прецедента
2)в случае качественных признаков доля мера их близости - количество $n$ совпадающих по значениям из общего набора качественных признаков $N$ запроса и прецедента - это вроде мера Хэмминга. (иногда используют и нормированную меру $\frac{n}{N}$ )
3)видимо надо ввести дополнительные предпочтения (упорядоченности)
например, считать принудительно, что прецедент имеющий больше общих параметров с запросом ближе к запросу, чем прецедент имеющий меньше общих параметров независимо от степени расхождения этих параметров.
А врутри классов имеющих общее число параметров уже упорядочивать по расстоянию (формула выше).
Вообще эти игры с весами и предпочтениями напоминают мне маркетинг или классическую задачу по выбору предпочтений разных сортов пива (английсий статистикработавший на пивзаводе)

Научный форум dxdy

Выбор ближайшего прецедента по набору значений признаков