Задача поставлена следующим образом:
Eсть набор признаков
и два "шаблона"
, соответствующиe двум классам (в идеале не пересекающимся). Берём некоторый элемент, измеряем у него указанные признаки и сравниваем с шаблоном
- получаем набор
чисел, которые характеризуют "соответствие" шаблону. Сравниваем эти же признаки с шаблоном
и получаем набор других чисел. Таким образом, элементу соответствует вектор размерности
. Далее, имеются группы
, под которые и были созданы шаблоны, то есть подразумевается, что показатели элементов из группы
"хорошо подходят" под шаблон
и "плохо" под шаблон
. Для элементов из группы
ситуация зеркальная. В связи с неизбежными статвыбросами, ошибками измерения и пр., некоторый процент групп
перекрываeтся и поэтому разделить на 100% эти группы не получится. Тем не менее хочется найти такой критерий (гиперповерхность?), чтобы минимизировать ошибки как первого, так и второго рода. Или хотя бы одного из этих родов. Kоличество элементов в каждой группе одинаково и порядка за сотни тысяч.
Самостоятельные попытки решения:Википедия делится знаниями о
Задача классификации но к сожалению, указанныe методы либо предполагают нормальность раcпределения, идентичность вариации или даже явную возможность разделить классы какой-то плоскостью. Не думаю, что исследуемые данные обладают указанными свойствами. Хуже того, есть некоторая корреляция или зависимость одних признаков от других.
Пока что, за неимением лучшего, изучаю
квадратичный классификатор, хотя не уверен, что он подходит.
Буду благодарен за идеи и ссылки на какие-либо подходы к решению.
(Example)
В качестве примера рассмотрим задачу классификации спортсменов: штангистов и легкоатлетов.
Признаки:
1) вес, kg;
2) объём руки, cm;
3) жим лёжа, kg
4) пробег в день, km;
5) дистанция 800 м на время, min;
Соответственно, шаблон
и шаблон
. Для человека с массой
кг "соответствие шаблонy" можно выразить выразить многими способами, например в виде абсолютной
или относительниой разницы
(чем меньше, тем лучше) либо
(чем больше тем лучше). И так же по остальным признакам.