sendspam писал(а):
Кстати, а почему хорошо поддерживать в экзаменационной выборке такое же соотношение объектов разных классов, как и в обучающей выборке?
В Вашем случае, возможно, это и не так уж важно, если Вы все равно делите пространство на области. Просто в других методах (статистических) различия в численностях классов могут повлиять на результат. Поэтому желательно учить систему на наборе, в котором соотношение численностей классов такое же, как и в жизни.
Добавлено спустя 3 минуты 57 секунд:sendspam писал(а):
Не очень понял- почему разница на обучении и на тесте велика? Если я разделяю пространство признаков на области, и во время обучения, пространство было разделено таким образом, что все экземпляры обучающей выборки попали в те области, которые относятся к их классам, то по-моему, вполне логично, что при распознавании, классификатор их классифицирует 100 % правильно. И вполне логично, что новые объекты, не участвующие в обучении, могут нести в себе неучтенные классификатором свойства (шумы, или же просто неучтенные состояния), которые в свою очередь приводят к ошибкам классификации.
Разумеется, это все логично. Но ведь когда мы обучаем некоторую систему, то хотим представлять себе, какие результаты она будет показывать в реальной работе. Именно для этого и рассматривают тестовое множество. Если разница в результатах велика, то это означает, что мы не можем достоверно предсказать, насколько качественно будет работать обученная система. В промышленных задачах это недопустимо.
Добавлено спустя 4 минуты 37 секунд:sendspam писал(а):
Не очень понял, что значит - качество работы распознавателя? Разве тот график, что я привел не отвечает на заданный вопрос? Ну и еще пару слов про то, что ошибок перебраковки обычно больше процентов на 30, чем ошибок пропуска дефекта?
Я имел в виду про качество с точки зрения заказчика. Еще раз отмечу, что в данной задаче ошибки первого и второго рода несимметричны. Информация о том, сколько ошибок вообще допускает Ваша система, для заказчика бесполезна. Ему важно знать, сколько будет ошибок "пропуск цели", а сколько - "ложных тревог". Идеально было бы иметь возможность влиять на соотношения между этими вероятностями, но с Вашими данными это наверняка невозможно.
Добавлено спустя 7 минут 42 секунды:sendspam писал(а):
Гистограмма признаков- вы имеете ввиду распределение непосредственно значений признаков? Это я попробую. Спасибо, идея хорошая.
Расскажите пожалуйста поподробнее про двумерные поля корреляций- как их обычно строят и что из этого можно получить.
Гистограммы по одному признаку покажут, насколько сильно перекрываются классы, если учитывать только этот признак. Это может помочь понять в какой-то степени, насколько ценны для распознавания различные признаки. Кроме того, со статистической точки зрения интересны и собственно их распределения.
Под полем корреляций я имел в виду, зафиксировав некоторую пару признаков, нанести все образцы в виде точек на плоскости. Причем точки одного класса помечать одним цветом, а точки другого - другим. Во-первых, это визуально покажет, насколько хорошо можно разделить классы, пользуясь только этими двумя признаками. Может так случиться, что сами по себе два признака плохо разделяют классы, а вот в паре - хорошо. Кроме того, вид этих облаков покажет, сильно ли данные два признака коррелируют друг с другом (это также можно и интересно исследовать статистически). Может так случиться, что сами по себе оба признака рассматриваются как очень хорошие, но они сильно коррелируют друг с другом (т.е. в некоторой степени дублируют друг друга), поэтому с точки зрения понижения размерности включать их обоих не имеет смысла.
Добавлено спустя 34 минуты 17 секунд:
Вообще же Вы должны понимать, что главное в методах автоматического обучения - это не безошибочная работа, а способность к обобщению. Это означает, что система не просто покажет хороший результат на том наборе данных, на котором она училась, но и будет показывать гарантированно аналогично хороший результат и на новых образцах, которые ей будут предъявлены. При условии, конечно, что эти новые данные будут получены в приблизительно таких же условиях, как и обучающий набор.
С этой точки зрения Ваши результаты имеют, к сожалению, весьма низкую промышленную ценность. Если бы речь шла о моей деловой репутации, т.е. не просто впарить невесть что, а действительно отвечать за качество своего продукта, то я бы не мог это никому предложить, поскольку не могу гарантировать заданного качества работы.
В этом смысле стопроцентное распознавание на обучающем наборе является существенным недостатком. Поясню на примере. Представьте себе, что на плоскость нанесены три точки: одна красная и две синих (не лежащие на одной прямой). Это - три примера из двух классов, два признака. Их не просто можно разделить прямой, но можно разделить бесконечным числом способов. И нет никакого вообще осмысленного критерия выбора этой прямой, про который можно было бы хоть что-то сказать содержательное. Т.е. Вы никак не можете определить заранее, куда будут попадать новые точки, когда они будут появляться. А если ввести еще один признак, то произвола в выборе разделяющей плоскости будет еще больше. В этом случае у меня язык не повернется сказать, что мы вообще что-то "обобщаем", мы всего лишь каким-то произвольным способом строим разбиение пространства по имеющимся точкам.
Вообще я бы выделил два подхода к подобным задачам. Точнее, два типа реальных ситуаций, которые могут встречаться. Бывают задачи, в которых классы действительно могут быть разделены. Представьте себе на плоскости два облака точек, которые на самом деле не пересекаются. Тогда можно строить всякие разделяющие поверхности, но все равно нужно проверять, что полученный на обучающем наборе стопроцентный результат является объективным. Но в этом случае даже если облака случайным образом проредить, выделив из них тестовые наборы, то и на них получится аналогичный результат, близкий к стопроцентному. Это хороший критерий. Однако на самом деле такие задачи в жизни встречаются редко, на мой взгляд, хотя в учебной литературе их очень любят.
Гораздо чаще встречается задача, когда классы на самом деле пересекаются. Т.е. имеется область пространства, где объективно нельзя уверенно отнести объект к одному из заданных классов. Тогда следует пользоваться вероятностным подходом, т.е. пытаться на основе имеющейся обучающей выборки построить правило, которое как-то пытается оценить вероятность принадлежности объекта к каждому из классов. Как дальше будет использоваться эта вероятность - дело заказчика. Можно принимать жесткое решение по порогу, при этом порог позволяет контролировать соотношение между ошибками I и II рода. Можно выделить область отказа от принятия решения, тогда можно контролировать вероятность ошибки в том случае, когда решение принимается. Но и в этом случае критерием того, что построенное правило что-то обобщает, является сравнение результатов на тестовой выборке.
В этом смысле если представить себе, что при одном способе мы получили безошибочное распознавание на обучающем множестве и точность 85% на тестовом, а при другом способе - точность 83% на обучающем множестве и 80% на тесте, то второй результат я бы назвал более ценным с практической точки зрения.