2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу Пред.  1, 2
 
 
Сообщение06.09.2007, 23:00 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
sendspam писал(а):
Кстати, а почему хорошо поддерживать в экзаменационной выборке такое же соотношение объектов разных классов, как и в обучающей выборке?


В Вашем случае, возможно, это и не так уж важно, если Вы все равно делите пространство на области. Просто в других методах (статистических) различия в численностях классов могут повлиять на результат. Поэтому желательно учить систему на наборе, в котором соотношение численностей классов такое же, как и в жизни.

Добавлено спустя 3 минуты 57 секунд:

sendspam писал(а):
Не очень понял- почему разница на обучении и на тесте велика? Если я разделяю пространство признаков на области, и во время обучения, пространство было разделено таким образом, что все экземпляры обучающей выборки попали в те области, которые относятся к их классам, то по-моему, вполне логично, что при распознавании, классификатор их классифицирует 100 % правильно. И вполне логично, что новые объекты, не участвующие в обучении, могут нести в себе неучтенные классификатором свойства (шумы, или же просто неучтенные состояния), которые в свою очередь приводят к ошибкам классификации.


Разумеется, это все логично. Но ведь когда мы обучаем некоторую систему, то хотим представлять себе, какие результаты она будет показывать в реальной работе. Именно для этого и рассматривают тестовое множество. Если разница в результатах велика, то это означает, что мы не можем достоверно предсказать, насколько качественно будет работать обученная система. В промышленных задачах это недопустимо.

Добавлено спустя 4 минуты 37 секунд:

sendspam писал(а):
Не очень понял, что значит - качество работы распознавателя? Разве тот график, что я привел не отвечает на заданный вопрос? Ну и еще пару слов про то, что ошибок перебраковки обычно больше процентов на 30, чем ошибок пропуска дефекта?


Я имел в виду про качество с точки зрения заказчика. Еще раз отмечу, что в данной задаче ошибки первого и второго рода несимметричны. Информация о том, сколько ошибок вообще допускает Ваша система, для заказчика бесполезна. Ему важно знать, сколько будет ошибок "пропуск цели", а сколько - "ложных тревог". Идеально было бы иметь возможность влиять на соотношения между этими вероятностями, но с Вашими данными это наверняка невозможно.

Добавлено спустя 7 минут 42 секунды:

sendspam писал(а):
Гистограмма признаков- вы имеете ввиду распределение непосредственно значений признаков? Это я попробую. Спасибо, идея хорошая.

Расскажите пожалуйста поподробнее про двумерные поля корреляций- как их обычно строят и что из этого можно получить.


Гистограммы по одному признаку покажут, насколько сильно перекрываются классы, если учитывать только этот признак. Это может помочь понять в какой-то степени, насколько ценны для распознавания различные признаки. Кроме того, со статистической точки зрения интересны и собственно их распределения.

Под полем корреляций я имел в виду, зафиксировав некоторую пару признаков, нанести все образцы в виде точек на плоскости. Причем точки одного класса помечать одним цветом, а точки другого - другим. Во-первых, это визуально покажет, насколько хорошо можно разделить классы, пользуясь только этими двумя признаками. Может так случиться, что сами по себе два признака плохо разделяют классы, а вот в паре - хорошо. Кроме того, вид этих облаков покажет, сильно ли данные два признака коррелируют друг с другом (это также можно и интересно исследовать статистически). Может так случиться, что сами по себе оба признака рассматриваются как очень хорошие, но они сильно коррелируют друг с другом (т.е. в некоторой степени дублируют друг друга), поэтому с точки зрения понижения размерности включать их обоих не имеет смысла.

Добавлено спустя 34 минуты 17 секунд:

Вообще же Вы должны понимать, что главное в методах автоматического обучения - это не безошибочная работа, а способность к обобщению. Это означает, что система не просто покажет хороший результат на том наборе данных, на котором она училась, но и будет показывать гарантированно аналогично хороший результат и на новых образцах, которые ей будут предъявлены. При условии, конечно, что эти новые данные будут получены в приблизительно таких же условиях, как и обучающий набор.

С этой точки зрения Ваши результаты имеют, к сожалению, весьма низкую промышленную ценность. Если бы речь шла о моей деловой репутации, т.е. не просто впарить невесть что, а действительно отвечать за качество своего продукта, то я бы не мог это никому предложить, поскольку не могу гарантировать заданного качества работы.

В этом смысле стопроцентное распознавание на обучающем наборе является существенным недостатком. Поясню на примере. Представьте себе, что на плоскость нанесены три точки: одна красная и две синих (не лежащие на одной прямой). Это - три примера из двух классов, два признака. Их не просто можно разделить прямой, но можно разделить бесконечным числом способов. И нет никакого вообще осмысленного критерия выбора этой прямой, про который можно было бы хоть что-то сказать содержательное. Т.е. Вы никак не можете определить заранее, куда будут попадать новые точки, когда они будут появляться. А если ввести еще один признак, то произвола в выборе разделяющей плоскости будет еще больше. В этом случае у меня язык не повернется сказать, что мы вообще что-то "обобщаем", мы всего лишь каким-то произвольным способом строим разбиение пространства по имеющимся точкам.

Вообще я бы выделил два подхода к подобным задачам. Точнее, два типа реальных ситуаций, которые могут встречаться. Бывают задачи, в которых классы действительно могут быть разделены. Представьте себе на плоскости два облака точек, которые на самом деле не пересекаются. Тогда можно строить всякие разделяющие поверхности, но все равно нужно проверять, что полученный на обучающем наборе стопроцентный результат является объективным. Но в этом случае даже если облака случайным образом проредить, выделив из них тестовые наборы, то и на них получится аналогичный результат, близкий к стопроцентному. Это хороший критерий. Однако на самом деле такие задачи в жизни встречаются редко, на мой взгляд, хотя в учебной литературе их очень любят.

Гораздо чаще встречается задача, когда классы на самом деле пересекаются. Т.е. имеется область пространства, где объективно нельзя уверенно отнести объект к одному из заданных классов. Тогда следует пользоваться вероятностным подходом, т.е. пытаться на основе имеющейся обучающей выборки построить правило, которое как-то пытается оценить вероятность принадлежности объекта к каждому из классов. Как дальше будет использоваться эта вероятность - дело заказчика. Можно принимать жесткое решение по порогу, при этом порог позволяет контролировать соотношение между ошибками I и II рода. Можно выделить область отказа от принятия решения, тогда можно контролировать вероятность ошибки в том случае, когда решение принимается. Но и в этом случае критерием того, что построенное правило что-то обобщает, является сравнение результатов на тестовой выборке.

В этом смысле если представить себе, что при одном способе мы получили безошибочное распознавание на обучающем множестве и точность 85% на тестовом, а при другом способе - точность 83% на обучающем множестве и 80% на тесте, то второй результат я бы назвал более ценным с практической точки зрения.

 Профиль  
                  
 
 
Сообщение07.09.2007, 17:06 


03/07/06
45
Спасибо за столь расширенный ответ.
Хочу задать следующие вопросы:
1. А разве мои выводы, полученные на тестовом множестве, не участвовавшем в обучении, не показывают именно тот результат, который система и будет показывать в дальнейшем? Тем более, что при максимальном количестве элементов обучающей выборки, и максимальном -5 элементов, результаты одинаковые?
2. Каким образом можно влиять на соотношение между ошибками первого и второго рода?
3. Что касается анализа работы системы- понятно, а вот какой интерес, именно для статистики, представляют распределения значений признаков? На сколько я понимаю, линейную зависимость может показать коэффициент корреляции, а нелинейную - квадрат функции (или модуля) когерентности (правда, как это рассчитать- пока не знаю). Так может, лучше посчитать эти параметры, и не мучаться с полями?
4. Если 100% результат распознавания на обучающем наборе - недостаток, то каким образом мне уйти от него? Что мне надо для этого сделать?
5. Если я создам классификатор, который будет даже элементы обучающей выборки классифицировать с ошибкой, то результат классификации на тестовом наборе будет заведомо хуже чем сейчас, или он может остаться таким же, или стать даже лучше?
6. Если не сложно – дайте пару советов по выходу из создавшейся ситуации; по поводу того какие шаги нужно предпринять для улучшения моей системы и какие исследования мне хорошо бы провести, чтобы моя работа воспринималась как нормальная завершенная научная работа?

 Профиль  
                  
 
 
Сообщение07.09.2007, 18:24 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
sendspam писал(а):
Тем более, что при максимальном количестве элементов обучающей выборки, и максимальном -5 элементов, результаты одинаковые?


Я отвечу на Ваши вопросы, только хотелось бы уточнить: правильно ли я понимаю, что и в случае использования всего набора объектов в качестве обучающего, и в случае исключения части объектов - ошибка на обучающем наборе отсутствует?

 Профиль  
                  
 
 
Сообщение07.09.2007, 22:17 


03/07/06
45
да, отсутствует

 Профиль  
                  
 
 
Сообщение08.09.2007, 19:10 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
sendspam писал(а):
1. А разве мои выводы, полученные на тестовом множестве, не участвовавшем в обучении, не показывают именно тот результат, который система и будет показывать в дальнейшем?


В принципе, да. Но поскольку Ваше тестовое множество достаточно маленькое, то точность оценки вероятности ошибки невелика. Можно посмотреть на ситуацию так: Вы каким-то образом разметили пространство на две части - красную и синюю. Далее Вы проводите случайный эксперимент, кидая в это пространство точки этих же цветов, и оцениваете вероятность случайного события "ошибка" - когда точка попадает в область другого цвета. Но поскольку точек у Вас всего несколько, то надежность такой оценки вероятности маловата.

Посмотрите еще, сильно ли колеблется частота ошибок при разных тестовых множествах. Если сильно, то доверие еще меньше.

Кроме того, большой вопрос, как в используемой Вами системе разрешается вопрос с выбором разделяющей гиперплоскости, поскольку она выбирается неоднозначно. Ведь смотрите что получается: обучение на всем множестве показывает, что существует гиперплоскость, разделяющая все имеющиеся у Вас точки. Но когда часть точек удаляется, то процедура ее не находит. Все-таки такой большой разрыв между обучающим множеством и тестовым очень сильно внушает сомнения в объективности результата.


Вы можете еще провести такой эксперимент. Выберите случайно несколько точек каждого класса и поменяйте у них метки классов на противоположные. Попробуйте научить систему на таких данных. Если она и в этом случае стопроцентно их разделит, то это означает, что у нее слишком много свободы - она не ищет никакие закономерности, а готова разделить любые данные, даже если они порождены случайно.

Добавлено спустя 5 минут 33 секунды:

sendspam писал(а):
5. Если я создам классификатор, который будет даже элементы обучающей выборки классифицировать с ошибкой, то результат классификации на тестовом наборе будет заведомо хуже чем сейчас, или он может остаться таким же, или стать даже лучше?


Может стать и лучше. На самом деле, достаточно типичная ситуация по-простому выглядит так: обучение системы есть последовательная минимизация ошибки на обучающем множестве, но параллельно с этим можно для контроля вычислять ошибку и на тестовом множестве. Первая всегда убывает, а вторая сначала убывает, а потом начинает возрастать. Это означает, что система уже научилась общим закономерностям и стала подстраиваться под данные обучения. Именно на этом шаге обычно обучение останавливают.

Добавлено спустя 1 минуту 42 секунды:

sendspam писал(а):
4. Если 100% результат распознавания на обучающем наборе - недостаток, то каким образом мне уйти от него? Что мне надо для этого сделать?


Не совсем так, недостаток - не 100%-ное распознавание, а то, что на тестовом множестве результат получается гораздо хуже. Нужно снижать размерность пространства признаков.

Добавлено спустя 6 минут 54 секунды:

sendspam писал(а):
2. Каким образом можно влиять на соотношение между ошибками первого и второго рода?


Нужно иметь внутри своей процедуры классификации пороги принятия решения, которые можно двигать.

Наиболее правильно будет научиться на основе наблюдаемых признаков оценивать вероятность того, что заданная точка принадлежит заданному классу. После этого окончательное решение принимается по заданному порогу, который при этом и будет в точности управлять соотношением между ошибками двух родов. Но я очень сомневаюсь, что это можно сделать при стопроцентном разделении, вот тут это действительно недостаток. Дело в том, что для того, чтобы хорошо статистически оценить вероятность некоторого события, нужно все-таки иметь примеры ситуаций, когда оно происходит и когда не происходит. В Вашем же случае Вы наблюдаете события, которые либо происходят всегда, либо никогда. Никакой разумной оценки вероятности в этом случае кроме 1 и 0 не существует.

Добавлено спустя 14 минут 14 секунд:

sendspam писал(а):
3. Что касается анализа работы системы- понятно, а вот какой интерес, именно для статистики, представляют распределения значений признаков?

sendspam писал(а):
6. Если не сложно – дайте пару советов по выходу из создавшейся ситуации; по поводу того какие шаги нужно предпринять для улучшения моей системы и какие исследования мне хорошо бы провести, чтобы моя работа воспринималась как нормальная завершенная научная работа?


Я бы советовал сделать так. Возьмите большее тестовое множество. Скажем, разделите все объекты на 3-4 части, одну из которых берите в качестве теста. Далее, рассматривайте не более 2-3 признаков (можно рассматривать разные комбинации), а для начала стоит попробовать исследовать вообще признаки по одному. Попробуйте использовать чисто статистический подход. Т.е. посмотрите визуально на гистограммы признаков и сделайте качественный вывод о типе распределения. Далее по обучающему множеству оцените параметры этого распределения (точнее - распределений, они ведь разные для классов). Так Вы получите модель, в которой каждое наблюдение будет реализацией случайной величины (или случайного вектора) того распределения, которое описывает данный класс. Задавшись некоторыми априорными вероятностями появления точек каждого класса, по формуле Байеса можно найти, какова при этом будет вероятность того, что данная наблюдаемая точка принадлежит заданному классу. Далее задается порог и принимается жесткое решение.

Для оценки того, насколько результаты объективны, используйте:
1. соотношения между ошибками на тестовом и обучающем множествах;
2. соотношения между ошибками на различных тестовых множествах;
3. соотношение между ошибкой на тестовом множестве и ошибкой при обучении на полной выборке.

Если не сложно, приведите гистограммы распределений по какому-нибудь одному признаку, я бы на них посмотрел.

А еще могу посоветовать активнее общаться с научным руководителем (что он хотел бы видеть в Вашей диссертации), а также с предполагаемыми оппонентами и с тем, кто будет писать отзыв от ведущей организации. Узнайте их мнение по поводу возникающих у Вас вопросов. На защите ученый совет будет ориентироваться именно на их отзывы, никто в детали Вашей работы вникать не будет. Мне лично вообще кажется, что та часть Вашей диссертации, которая посвящена сбору признаков, будет более интересна аудитории, чем собственно система распознавания.

 Профиль  
                  
 
 
Сообщение09.09.2007, 23:52 


03/07/06
45
Спасибо большое за ответ. Что касается дополнительных экспериментов и данных- попробую посмотреть. Также, в скорости представлю гистограмму по какому-то признаку.

1. Хотел бы уточнить, что классификатор состоит не из одной, а из нескольких гиперплоскостей, которые могут образовывать в пространстве замкнутые и не замкнутые объемы любой конфигурации. Алгоритм работает следующим образом: имея обучающие выборки, мы проводим первую гиперплоскость перпендикулярно прямой, соединяющей мат. ожидания классов в некой внутренней точке, чтобы количество неверно классифицированных векторов для каждого класса было одинаковым. Последующие гиперплоскости проводятся аналогично, чтобы на каждом шаге минимизировать ошибку деления предыдущих шагов: т.е. на втором шаге пытаемся разделить область с максимальной ошибкой. И так далее. В итоге при дихотомии, получаем бинарное дерево. В узлах- гиперплоскости. В листьях - результат классификации: классы.

2. Что касается предложения с переменой меток. Я думаю, система опять построит классификатор таким образом, что результат классификации на обучающем множестве будет 100%. Я это говорю исходя из того, что вышеописанный алгоритм в итоге пытается свести к нулю ошибку классификации. И делает это, если мы не ограничиваем количество гиперплоскостей.

3. Вы знаете, я полагаю, что снижение размерности пространства, при условии использования моего алгоритма классификации, все равно даст такие же результаты

4. Ваше предложение с определением вероятностей и введением порогов очень смахивает на классификатор Байеса (или это не так, тогда в чем различие?). Но, ведь у меня другой алгоритм классификации. Да, и при таких объемах обучающей выборки, видимо, определение каких-либо статистичских параметров будет очень неточным, и следовательно, правило Байеса наверное, будет давать отнюдь не лучший результат.
Не очень понял почему у меня возможны оценки вероятностей только 0 и 1. Если возможно, объясните чуть подробнее.

5. Не очень понял что означает “соотношение между ошибкой на тестовом множестве и ошибкой при обучении на полной выборке.” ?? Если я полную выборку использую для обучения, то получается что тестовое множество пустое, так как же проверить качество распознавания?

6. Вы, наверное, правы в том, что первая часть диссертации может заинтересовать больше (таково мнение науч.рука), однако ситуация у меня следующая: дисер я пишу на своей родной кафедре “вычислительные системы, сети”, где люди распознаванием вообщем-то никогда особо не занимались и эти вопросы их не интересовали. Однако, защищаться мне, видимо, придется на кафедре Кибернетика, где как раз и живут люди, занимающиеся распознаванием. И, безусловно, они будут обращать внимание на корректное решение задачи распознвания. Что же касается желаний науч.рука и прочих – боюсь, что узнать это - задача нетривиальная. Но, в любом случае, спасибо за совет- попробую побеседовать с людьми на досуге.

 Профиль  
                  
 
 
Сообщение10.09.2007, 22:32 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Да, такая система классификации, как у Вас, мне не нравится. И я думаю, что специалисты также ее подвергнут критике. Я думал, что Вы разделяете одной гиперплоскостью...

Ваша система направлена именно на разделение имеющихся данных и никаких идей, связанных с обобщающей способностью, в ней не заложено. Так делать неправильно. Вы ведь даже не фиксируете заранее количество параметров, которые у Вас будут описывать решение. Каждая гиперплоскость задается столькими коэффициентами, сколько у Вас признаков, и Вы добавляете их до тех пор, пока не получите полное разделение. Таким образом можно разделить что угодно, даже если данные не содержат никаких разумных закономерностей, а один только случайный шум. Что-то, вероятно, она все-таки находит, судя по каким-то результатам на тесте, но все равно это не то.

sendspam писал(а):
3. Вы знаете, я полагаю, что снижение размерности пространства, при условии использования моего алгоритма классификации, все равно даст такие же результаты


Да, это вполне вероятно. Я рекомендую подумать над использованием других алгоритмов.

sendspam писал(а):
4. Ваше предложение с определением вероятностей и введением порогов очень смахивает на классификатор Байеса (или это не так, тогда в чем различие?). Но, ведь у меня другой алгоритм классификации. Да, и при таких объемах обучающей выборки, видимо, определение каких-либо статистичских параметров будет очень неточным, и следовательно, правило Байеса наверное, будет давать отнюдь не лучший результат.
Не очень понял почему у меня возможны оценки вероятностей только 0 и 1. Если возможно, объясните чуть подробнее.


Да, это в общем Байес и есть. А Вы попробуйте его использовать, не исключено, что результаты получатся вполне неплохие. Если взять два-три признака, то имеющихся у Вас точек вполне достаточно, чтобы оценить параметры распределения. К примеру, многомерного нормального. Нам ведь не нужно на самом деле, чтобы параметры получились "истинные". Нам нужно, чтобы классификация хорошо работала. Можно еще после оценки параметров по классам по отдельности попробовать "подкрутить" параметры, минимизируя уже ошибку классификации.

Про 0 и 1: если мы хотим нормально оценить вероятность принадлежности к заданному классу в некоторой области, то нужно, чтобы в ней были как точки этого класса, так и другие. А в Вашем случае в Ваших областях точки только одного класса, поэтому оценка вероятности получается вырожденная.

 Профиль  
                  
 
 
Сообщение11.09.2007, 17:41 


28/07/06
206
Россия, Москва
sendspam писал(а):
А как в таком случае быть, если обучающая выборка 100, а признаков будет, допустим, 2000? Ведь бывают такие случаи, когда признаков можеть быть много, а обучающую выборку расширить очень трудно, или невозможно.
Могу я при таком положении дел, все же создать систему,
или же вообще абсолютно некорректно говорить о каком-то качестве распознавания в такой ситуации?
Подобные ситуации бывают на практике. Например в задачах распознавания объектов с ограниченным доступом к обучающей выборке. Их в итоге решают. Можно для начала почитать:

Ченцов Н.Н. Статистические решающие правила и оптимальные выводы. - М.: Наука, 1972.

Рындин Ю.Г., Тартаковский Г.П., Тюрин В.С. Распознавание объектов, одновременно принадлежащих нескольким классам. // РЭ. Том 49, 9, 2004.

Рончашов И.В., Суханов С.А. Принципы построения алгоритма защиты от ложной информации в комплексных системах обнаружения целей., серия РЛТ, выпуск 2, 2001г.

sendspam писал(а):
И какое именно качество распознавания я могу получить, если учесть, что система обязательно должнать выдавать результат (состояния НЕ ЗНАЮ в нее не заложено)? Ошибки какого рода будут преобладать?
Вопрос некорректен. Считать необходимо конкретно!

 Профиль  
                  
 
 
Сообщение13.09.2007, 11:38 


03/07/06
45
2PAV: на мой взгляд, такая система классификации как у меня, хотя и неидеальна, и наверное, обладает рядом недостатков, однако имеет право на жизнь. Ведь, существуют же различные подобные методы, которые разделяют обучающую выбору до конца, и во чтобы то ни стало. Например, метод дробящихся эталонов, метод ближайшего соседа, наконец, в общем виде тот метод, который я использую, придумал не я. Его используют уже многие годы. И заключается он в том, что фактически гиперплоскостями аппроксмимируют разделяющую поверхность любой сложности. А во многих книгах по РО пишут, что можно разделять классы различными поверхностями: 1-ого порядка, 2-ого, и так далее. Вплоть до того, что построить разд. поверхн любой сложности.

Кстати, мой алгоритм может быть сведен к методу комитетов, при котором каждый классификатор состоит из 1 гиперплоскости, и существует общее правило вывода единого решения, в зависимости от результатов работы каждого классификатора (гиперплоскости).

Это все неписано не для того, чтобы сказать, что мой классификатор самый лучший, нет.
Я просто хочу разобраться- почему другие люди используют такие же, или похожие классификаторы и они у них работают, а в моем случае данные методы неприменимы, или плохо применимы.

2 G^a: спасибо за книжки.

 Профиль  
                  
 
 
Сообщение13.09.2007, 12:15 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Что делают другие люди - я судить не берусь. Видите ли, на мой личный взгляд, следует достаточно осторожно относиться к результатам, которые приводят во многих статьях и книжках. Как правило, исследовательские группы, которые занимаются теоретическим изучением методов распознавания и т.п., имеют несколько специальные цели. Они не работают на надежный и качественный результат, а на обоснование перед аудиторией какого-то метода. Практические примеры использования не играют центральной роли в статьях, а являются лишь иллюстрацией к методу. Часто бывает так, что на самом деле к решению данной задачи гораздо лучше подходит какой-то другой, часто всем известный, классический и более простой метод, но это ведь никому не интересно. Кроме того, авторы статей значительно меньше внимания уделяют качественной валидации полученных результатов, чем это реально необходимо при практическом применении. Равно как Вы не имеете возможности проверить, не применили ли авторы "подгонки" параметров так, чтобы результат выглядел более солидно.

Я не хочу сказать ничего особенно плохого, на самом деле действительно цель статей - изложить метод, чтобы его можно было попробовать использовать для реальных задач. Но если речь идет о реальных задачах, то следует пробовать разные методы и очень аккуратно подходить к оценке их качества. Для того, чтобы получить достаточно надежную такую оценку, нужно иметь соответствующую комбинацию сложности самого метода и объема доступного тестового множества.

Так что спрашивать, почему у авторов метод дал хорошие результаты, а у меня нет, не очень правильно. Возможно, авторы пробовали свой метод на разных задачах и опубликовали именно ту, для которой получились приличные результаты. Возможно также, что ни для какой реальной задачи этот метод применен не был или его результаты оказались ненадежны.

В Вашем случае метод весьма сложен (параметров много), а потому особенно склонен к переобучению (что подтверждается результатами). А данных у Вас мало, поэтому достоверно контролировать это переобучение не получается. Это приводит к сомнениям в том, что полученные результаты применимы на практике.

Добавлено спустя 10 минут 6 секунд:

А методы, которые направлены любой ценой на отсутствие ошибок на обучающей выборке, особенно подозрительны и лично у меня вызывают очень большие сомнения. Хотя бы потому, что в реальной жизни в обучающей выборке могут быть ошибки. Поэтому я на самом деле очень сильно сомневаюсь, что такими методами можно хорошо решать задачи. Например, вместо метода ближайшего соседа я бы настоятельно рекомендовал использовать метод $k$ ближайших соседей. Он во-первых может оценивать надежность решения, а также может даже точку обучающего набора относить к другому классу, если, скажем, она случайно попала в явную область другого класса.

 Профиль  
                  
 
 
Сообщение15.09.2007, 22:48 


03/07/06
45
Спасибо за столь развернутый ответ.

Общая идея мне понятна. Однако, проблема остается прежней. Дело в том, что на данный момент мне, видимо, уже поздно перескакивать на другие алгоритмы, и придется колупаться с теми, которые уже мной реализованы.

Вследствие этого вопрос: как и что мне сделать, чтобы "все было хорошо". То есть чтобы резльтаты были вменяемые, производили хорошее впечатленеи и все было грамотно?

Ps Мне, кстати очень понравилась идея насчет одновременной оценки ошибки на тестовом и обучающем множетсве, и остановки алгоритма при достижении минимума на тестовом. Другой вопрос- будет ли это работать у меня и насколько эффективно. Но, на это, наверное, мне уж никто сейчас не ответит. Или есть все-таки какие-то общие правила, условия, границы применимости данного метода?

 Профиль  
                  
 
 
Сообщение16.09.2007, 12:22 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Могу только предложить попробовать заранее ограничить количество делений пространства плоскостями. Для начала можно вообще ограничиться одной плоскостью. На самом деле это будет ни что иное как SVM.

Но на самом деле реализовать Байесовский подход совсем не сложно и не долго.

Вы обещали привести примеры гистограмм отдельных признаков.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 27 ]  На страницу Пред.  1, 2

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group