2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу Пред.  1 ... 14, 15, 16, 17, 18, 19, 20, 21  След.
 
 Re: О перцептроне Розенблатта
Сообщение08.11.2025, 20:35 
tac в сообщении #1708627 писал(а):
Вы еще предсказатель рулетки напишите
Да можно и рулетки. Но с монеткой пример проще.

Монетка прекрасно демонстрирует переобучение на примере вырожденного до идиотизма случая. Переобучение, которого по-вашему не бывает. Но вам нравится вариться в своём мире со своей собственной терминологией - можете продолжать обижаться на то, что вас не понимают.

Цитата Митчела про один из технических способов уменьшить риски переобучения. В ней ничего не говорится про то, что от переобучения можно полностью избавиться.

У вас есть только очень ограниченные выборки. Вы не можете тасовать для обучения будущие данные, с которыми придётся работать системе в реальном мире. Обычно требуется чтобы система нормально работала на неизвестных вам данных, а не только на вашей выборке.

И вы не ответили на вопросы к вам.

 
 
 
 Re: О перцептроне Розенблатта
Сообщение08.11.2025, 20:51 
Аватара пользователя
Ключевое вот это, всё, что ниже - опционально.
tac в сообщении #1708547 писал(а):
Нужно отметить, что мне не сильно то и хочется что либо отстаивать
Ваше право. Я же не нападаю (в том вопросе). Я прошу Вас, как ТС, прояснить, о чём тема.

tac в сообщении #1708546 писал(а):
вот правильные определения (из Розенблатта стр. 224)
Первое я бы предложил называть, как принято сейчас, OHE = one-hot encoding. Значит ровно то же самое.
tac в сообщении #1708547 писал(а):
Что вам известно про то какое влияние оно оказывает на реальные примеры, а не в игры со случайностью?
Мне известно, что я проиграл контест "сделать модель, которая предскажет время доставки пользователю", потому что поставил слишком большое количество деревьев в бустинге. И это было бы видно на кроссвалидации, но я поленился смотреть. Сойдет в качестве примера?
tac в сообщении #1708547 писал(а):
А Вы хоть сами читали Митчела?
А Вы читали то, что я написал?
mihaild в сообщении #1708242 писал(а):
но понятие переобучения рассматривается, в первую очередь, для решающих деревьев
(жирный шрифт добавлен сейчас)
tac в сообщении #1708547 писал(а):
странно, что вы не заметили там раздела про бэкпроп
mihaild в сообщении #1708242 писал(а):
в довольно древней (1997 год) книге Митчелла, хотя back propagation и есть

tac в сообщении #1708547 писал(а):
Но в итоге он предлагает ни один раз проводить обучение, а перетасовывать даже не только примеры в обучающей выборке (чем я ограничиваюсь, а вы даже против этого возражаете), но и постоянно между обучающей и тестовой и находить среднее
Нет, он предлагает не это.
Он предлагает мета-алгоритм поверх back propagation: случайным образом разделили обучающую выборку на обучающую' и тестовую'. Сделали много шагов back propagation, нашли шаг, на котором лучший результат на тестовой', это $s_1$.
Повторили для другого разбиения на обучающую выборку - на обучающую'' и тестовую'', нашли новый лучший шаг, это $s_2$. Повторили еще много раз. Взяли среднее всех $s_i$. И теперь запустили back propagation уже на всей обучающей выборке, взяв вот это среднее число шагов.
Это один из раньше использовавшихся на практике подходов. Можно даже "на глаз" взять чуть-чуть больше шагов, потому что финальный прогон у нас на немного большей выборке, чем были предварительные.
Для обучения больших моделей с нуля этот подход сейчас не используется, потому что учить модель много раз просто дорого.
tac в сообщении #1708547 писал(а):
Это собственно то, что я и говорю, что вы наблюдаете переобучение только в одном случае, когда обучающая выборка не репрезентативно представлена в тестовой, и наоборот
Нет, это происходит когда модель обращает внимание на характиристики обучающих примеров, которые нерепрезентативны всей совокупности. Такие характеристики будут всегда, если обучающие примеры не покрывают всю совокупность.

И так, общий вброс про переобучение и Ваш перцептрон Розенблатта. На практике для очень многих моделей оно почти для всех моделей не выглядит как красивая картинка "пришли к минимуму на обучающей выборке, а дальше стабильно пошли вверх". Для некоторых моделей можно получить такой эффект на простых данных, и для любой модели можно получить такой эффект на каких-то данных, но гораздо чаще получается "пришли к минимуму, а потом дрожим с чуть худшими результатами".
Для нейронки без регуляризации как раз красивую кривую ошибки на тесте сначала вниз, потом вверх, получить часто несложно. Но на многих примерах, в которых данных нет чтобы адекватно получить нулевую ошибку (как мой пример выше) - она, скорее всего, при early stopping выдаст модель, которая на тесте лучше монетки. В отличии от Вашей модели, которая для довольно простого распределения не может научиться ничему.
Для метода "постепенно запоминать обучающую выборку, а на не входящих в неё примерах выдавать рандом, сидированный количеством шагов", тоже красивую кривую переобучения почти никогда не нарисует (надо специально подбирать датасет под конкретный базовый сид). No free lunch theorem это не противоречит (понятно, почему?).
tac в сообщении #1708547 писал(а):
Вы наверняка мне создавали такие выборки которые отличались распределением признаков
Я Вам написал, как генерируется выборка. И можете посмотреть код. Разумеется, если Вы сгенерируется два набора по 100 примеров, каждый пример независимо распределен равномерно на $[0, 1]$, то наборы получатся разными, и, например, минимум, максимум, выборочное среднее, выборочная дисперсия в них будут разными. Но это как раз свойство всех встречающихся на практике датасетов :)

 
 
 
 Re: О перцептроне Розенблатта
Сообщение09.11.2025, 01:41 
mihaild в сообщении #1708636 писал(а):
Он предлагает мета-алгоритм поверх back propagation

Да, и вы его исказили. О чём еще тут можно говорить?

mihaild в сообщении #1708636 писал(а):
На практике для очень многих моделей оно почти для всех моделей не выглядит как красивая картинка "пришли к минимуму на обучающей выборке, а дальше стабильно пошли вверх".


Именно, такую красивую картинку я показал вам на MNIST. После чего показал тоже самое на ваших Random тестах. Никакой другой "практики" вы не показали. Все случаи из моего опыта такие же, да возможно мой опыт не такой большой, но какой есть, и никаких других случаев вы не продемонстрировали.

mihaild в сообщении #1708636 писал(а):
В отличии от Вашей модели, которая для довольно простого распределения не может научиться ничему.

Да, случайности он научится не может. Но мы хорошо видим, что это случайность, и на ней переобучения тоже нет. Есть просто большое отклонение.

 
 
 
 Re: О перцептроне Розенблатта
Сообщение09.11.2025, 02:02 
Аватара пользователя
tac
Вы можете ответить, что предлагается обсуждать в теме, кроме как кто что где неправильно прочитал?

 
 
 
 Re: О перцептроне Розенблатта
Сообщение09.11.2025, 02:02 
Подводим итог:

Для определения переобучения используем определение:
Цитата:
Нейронная сеть называется переобученной, если $E^l_{end} = 0$, то среднее $E^v_{end}, E^v_{end - 1}, \ldots, E^v_{end - q}$ - обозначим его за $E^v_{end - q, end}$ - меньше, чем $E^v_{end}$

$t$ - индекс, обозначает шаг
$E^l_t$ - ошибка на обучающей выборке на шаге $t$
$E^v_t$ - ошибка на тестовой выборке на шаге $t$
$end$ - минимальное число, при котором $E_{end} = 0$; так же известно как "число шагов, на котором заканчиваем обучение"


Постулируем, что если эксперимент использует следующую методологию для нейросети:
1. Перед обучением выборка должна случайно перемешиваться и с равновероятным распределением делиться на обучающую и тестовую. Число примеров каждого класса должно быть примерно одинаковым.
2. Перед каждой итерацией обучения нейросети должна проводиться перетасовка (например, алгоритм Фишера-Йетса).
3. Выходы нейросети должны быть организованы по принципу позиционного кодирования (one-hot encoding)

переобучение не наблюдается, на данные пригодных для прогноза. Другими словами, если переобучение наблюдается даже в этом случае, данная выборка для обучения не пригодна.

 
 
 
 Re: О перцептроне Розенблатта
Сообщение09.11.2025, 02:10 
Аватара пользователя
tac в сообщении #1708670 писал(а):
Другими словами, если переобучение наблюдается даже в этом случае, данная выборка для обучения не пригодна
Это определение "не пригодной для обучения выборки"? Если нет, то какое определение?
Если да, то ваше утверждение истинно, но бессодержательно (и его истинность не поменяется, даже если отбросить все условия).

Предлагаю взять какие-то короткие слова для обозначения стандартных нейронных сетей, учащихся backprop, и перцептрона Розенблатта. Например первые называть "нейросетями/нейронками", второй "перцептроном".
(понятно, что не совсем хорошая терминология, но мне уже надоело каждый раз писать длинные термины)

Вы ваше утверждение делаете же про перцептрон Розенаблатта? Или про классические нейронки тоже?
tac в сообщении #1708670 писал(а):
Число примеров каждого класса должно быть примерно одинаковым
Т.е. датасеты с дисбалансным распределением сразу не рассматриваем? (имеете право, просто уточняю)

И поскольку у Вас тут много чего случайного - утверждения, наверное, должны как-то упоминать вероятность. Иначе получается, что они верны для любой реализации случайности.

tac в сообщении #1708670 писал(а):
Выходы нейросети должны быть организованы по принципу позиционного кодирования (one-hot encoding)
Кстати это требование излишне. При фиксированном сиде для всех разбиений и шаффлов, переобучение при обучении на OHE возникнет тогда и только тогда, когда оно возникнет при обучении с одним таргетом, либо исходным, либо инвертированным (либо в обоих).
(инвертированный в данном случае и на трейне, и на тесте)

 
 
 
 Re: О перцептроне Розенблатта
Сообщение09.11.2025, 02:28 
mihaild в сообщении #1708672 писал(а):
и его истинность не поменяется, даже если отбросить все условия

Почему это?

-- Вс ноя 09, 2025 03:30:45 --

mihaild в сообщении #1708672 писал(а):
Вы ваше утверждение делаете же про перцептрон Розенаблатта? Или про классические нейронки тоже?

про любой итеративный алгоритм обучения, который можно назвать ИНС, таких мне известно только два - бэкпроп и метод коррекции ошибки перцептрона. (хотя не их больше, если учитывать алгоритмы без учителя)

-- Вс ноя 09, 2025 03:33:17 --

mihaild в сообщении #1708672 писал(а):
Т.е. датасеты с дисбалансным распределением сразу не рассматриваем?

конечно, я их никогда не рассматривал

-- Вс ноя 09, 2025 03:39:30 --

А стоп, я понял как вы это поняли ... или нет, подтвердите или опровергните: даже если использовать правило ранней остановки - такая выборка не пригодна для обучения.

 
 
 
 Re: О перцептроне Розенблатта
Сообщение09.11.2025, 02:52 
Аватара пользователя
tac в сообщении #1708674 писал(а):
Почему это?
Потому что с таким определением это получится тавтология. Определение: "выборка называется непригодной для прогноза, если наблюдается переобучение". Утверждение: "если выборка пригодна для прогноза, то переобучение наблюдаться не будет".
tac в сообщении #1708674 писал(а):
про любой итеративный алгоритм обучения, который можно назвать ИНС
Я могу назвать ИНС хоть решающие деревья. Но, если я правильно понимаю, Вы предлагаете всё же ограничиться перцептроном Розенблатта и MLP с back propagation.
Кстати, а какой именно вариант back propagation? Самый базовый - это посчитать градиент по всей выборке сразу, и потом применить. Тут, очевидно, шаффл обучающей выборки в процессе ничего не изменит, потому что сложение коммутативно. Вы, видимо, предлагаете SGD с batch_size=1?

И давайте всё-таки отделять (хотя их часто и смешивают, что плохо) сами модели (пространства гипотез) и алгоритмы обучения (отображение из обучающей выборки в модели).

 
 
 
 Re: О перцептроне Розенблатта
Сообщение09.11.2025, 02:56 
mihaild в сообщении #1708675 писал(а):
Я могу назвать ИНС хоть решающие деревья.

не можете

-- Вс ноя 09, 2025 03:57:44 --

mihaild в сообщении #1708675 писал(а):
Вы, видимо, предлагаете SGD с batch_size=1?

и чем по вашему отличается с batch_size>1

-- Вс ноя 09, 2025 03:59:55 --

mihaild в сообщении #1708675 писал(а):
Самый базовый - это посчитать градиент по всей выборке сразу, и потом применить.


В какой момент это стало базовым, как раз с batch_size=1 это классика

-- Вс ноя 09, 2025 04:01:23 --

mihaild в сообщении #1708675 писал(а):
Определение: "выборка называется непригодной для прогноза, если наблюдается переобучение"

и где тут тавтология?

 
 
 
 Re: О перцептроне Розенблатта
Сообщение09.11.2025, 03:15 
Аватара пользователя
tac в сообщении #1708676 писал(а):
и чем по вашему отличается с batch_size>1
Количеством примеров, по которым считается градиент до обновления. Ну т.е. определением.
tac в сообщении #1708676 писал(а):
В какой момент это стало базовым
Если верить википедии - то в 1847.
tac в сообщении #1708676 писал(а):
и где тут тавтология?
В утверждении. Оно является просто контрапозицией определения.

 
 
 
 Re: О перцептроне Розенблатта
Сообщение09.11.2025, 03:19 
mihaild в сообщении #1708677 писал(а):
Если верить википедии - то в 1847.

ну понятно, когда алгоритм еще предложен не был, интересно. На всякий случай, метод градиентного спуска и бэкпроп - это разные вещи.

-- Вс ноя 09, 2025 04:23:12 --

tac в сообщении #1708678 писал(а):
Оно является просто контрапозицией определения.

не понимаю

-- Вс ноя 09, 2025 04:24:12 --

mihaild в сообщении #1708677 писал(а):
Количеством примеров, по которым считается градиент до обновления. Ну т.е. определением.

это не важно, это важно лишь для скорости схождения, но совсем не важно в смысле прогноза и с какой выборкой мы имеем дело.

-- Вс ноя 09, 2025 04:38:11 --

tac в сообщении #1708670 писал(а):
Другими словами, если переобучение наблюдается даже в этом случае, данная выборка для обучения не пригодна.


А понял, то опечатка

Другими словами, если переобучение наблюдается даже в этом случае, данная выборка для прогнозирования не пригодна.

или точнее

Другими словами, если переобучение наблюдается даже в этом случае, данная выборка для построения модели прогнозирования не пригодна.

 
 
 
 Re: О перцептроне Розенблатта
Сообщение09.11.2025, 12:20 
Аватара пользователя
tac в сообщении #1708678 писал(а):
это важно лишь для скорости схождения, но совсем не важно в смысле прогноза и с какой выборкой мы имеем дело
Тогда почему Вы так настаиваете на "перемешивании"? Что нужно перемешивать, если считаем градиент сразу по всем примерам?
(результат обучения будет одинаковым только при "достаточно малом" шаге, в общем случае не обязательно)

(Оффтоп)

tac в сообщении #1708678 писал(а):
не понимаю
Определение имеет вид $A \to B$, а утверждение $\neg B \to \neg A$.

tac в сообщении #1708670 писал(а):
переобучение не наблюдается, на данные пригодных для прогноза

tac в сообщении #1708678 писал(а):
Другими словами, если переобучение наблюдается даже в этом случае, данная выборка для построения модели прогнозирования не пригодна
Всё еще ничего интересного.
У Вас пока используется только одно свойство выборки - "отсутсвие переобучения" (напоминаю, что оно зависит от модели, и Вы всё еще не сказали, как учитывать, что из-за случайности может быть переобучение на одном запуске и не быть на следующем). И дальше Вы его назвали еще двумя терминами - "пригодность для обучения" и "пригодность для прогнозирования". Это просто введение терминов.

 
 
 
 Re: О перцептроне Розенблатта
Сообщение09.11.2025, 13:13 
mihaild в сообщении #1708694 писал(а):
"отсутсвие переобучения" (напоминаю, что оно зависит от модели


похоже вы сами запутались, а кто мне говорил, что переобучение свойственно всем без исключения алгоритмам?

 
 
 
 Re: О перцептроне Розенблатта
Сообщение09.11.2025, 13:15 
tac в сообщении #1708678 писал(а):
Другими словами, если переобучение наблюдается даже в этом случае, данная выборка для построения модели прогнозирования не пригодна.
Даже физики не смотрят на уличный термометр три раза когда решают, что надеть для прогулки. Делая подобное обобщение вы полностью игнорируете существование априорных знаний разработчика модели. Вы опять некоторые анализируемые вами алгоритмы обучения некоторых архитектур сеток обобщили на любые модели вообще.

 
 
 
 Re: О перцептроне Розенблатта
Сообщение09.11.2025, 13:16 
mihaild в сообщении #1708694 писал(а):
У Вас пока используется только одно свойство выборки - "отсутсвие переобучения"

Начнем с того, что переобучение это свойство алгоритма в условиях неправильно поставленного эксперимента, к выборке это никак не относится.

 
 
 [ Сообщений: 301 ]  На страницу Пред.  1 ... 14, 15, 16, 17, 18, 19, 20, 21  След.


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group