Речь пойдет об аналоге выбора ближайшей точки к заданной в n-мерном пространстве значений признаков.
В мат.статистике, кластерном анализе это обычное евклидово расстояние, известна процедура кластерного анализа, "метод ближайшего соседа".
Понятие прецедент пришло к нам из области информационной безопасности. Будем считать что есть некоторый полный набор свойств(признаков), часть их которых количественная, часть-качественная , булева, т.е. либо есть либо нет. Под прецедентом будем понимать некую стандартную ситуацию, характеризуемую набором некоторых признаков и их значений.
Например, понятия прецедентов можно применить к области компьютерных атак злоумышленников и компьютерных вирусов. Важно видимо понятие прецедентов и для диагностики заболеваний в медицине.
Актуальной является проблема поиска ближайшего прецедента по заданному набору значений признаков..
Отличие от кластерного и многомерного статистического анализа прежде всего в том что
а)каждый прецедент характеризуется своим индивидуальным набором признаков (в т.ч. может и качественных) и в этом смысле он не является точкой одного n-мерного пространства
б)прецедент может видимо характеризоваться не точечным а интервальным значением некоторого признака. Например в предметной области информационной безопасности прецедент «Атака 2го рода» характеризуется параметрами «Количество запросов» , «Количество различных IP адресов « для которых характерны интервальные значения от какого-то предела до бесконечности.
В
http://citforum.ru/consulting/BI/karpov/ (1)
приводится формула меры близости (2)

где

- вес j-го признака, sim - функция подобия (метрика),

и

- значения признака для текущего случая и прецедента, соответственно.
Мне непонятно применение формулы (2) в связи с указанным выше свойством а),что каждый прецедент характеризуется своим индивидуальным набором признаков. И метрика рассматривается не в полном пространстве признаков а в подпространстве проекций.
Т.е. пускай например текущий случай характеризуется значениями 3 признаков

И скажем есть 2 прецедента, в Прецеденте 1 есть все 3 признака и имеют значения

А в Прецеденте 2 есть только 2 признака из 3-х, но зато имеют значения
1)Какому прецеденту отдать предпочтение по близости к текущему случаю 1 или 2?
2) Можно ли вообще формализовать этой или какой-то другой формулой описанную ситуацию? (Другими словами, насколько ухудщает степень близости текущего случая и прецедента отсутствие у последнего части параметров случая).