2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу Пред.  1 ... 15, 16, 17, 18, 19, 20, 21  След.
 
 Re: О перцептроне Розенблатта
Сообщение09.11.2025, 13:26 
tac в сообщении #1708700 писал(а):
переобучение свойственно всем без исключения алгоритмам
Вопрос в величине ошибки и её приемлемости для решаемой задачи.

 
 
 
 Re: О перцептроне Розенблатта
Сообщение09.11.2025, 16:08 
Аватара пользователя
tac в сообщении #1708700 писал(а):
похоже вы сами запутались, а кто мне говорил, что переобучение свойственно всем без исключения алгоритмам?
Нет, это Вы запутались в порядке кванторов. Я говорил, что для любого алгоритма существует датасет, на котором этот алгоритм переобучается.
А еще Вы хотите называть переобучением что-то своё. Может быть придумаете какой-то другой термин?
tac в сообщении #1708702 писал(а):
Начнем с того, что переобучение это свойство алгоритма в условиях неправильно поставленного эксперимента, к выборке это никак не относится
Вы уже дали своё определение переобучения. Точнее, Вы дали определение, что значит "алгоритм (некоторого вида), для некоторого разбиения выборки на обучающую и тестовую, при некотором порядке предъявления примеров, переобучился".
Дальше Вы как-то определяете "пригодную для обучения" / "пригодную для предсказания" (это одно и то же, или разное? если разное, то в чем разница?) выборки, как выборки, на которых алгоритм не переобучается. Очевидно, что это определение зависит от алгоритма. Плюс в нём не хватает квантора по случайности - раз мы разрешаем случайность, то может быть, что при одном запуске алгоритм переобучился, а при другом нет, на одной и той же выборке.
Плюс я Вам для любой выборки легко предъявлю как алгоритм, который на ней переобучается, так и алгоритм, который на ней не переобучается.

 
 
 
 Re: О перцептроне Розенблатта
Сообщение09.11.2025, 16:19 
mihaild в сообщении #1708724 писал(а):
Вы уже дали своё определение переобучения.

Да, нет, оно вполне себе соответствует Митчелу, только усреднено.

-- Вс ноя 09, 2025 17:21:12 --

mihaild в сообщении #1708724 писал(а):
Плюс я Вам для любой выборки легко предъявлю как алгоритм, который на ней переобучается, так и алгоритм, который на ней не переобучается.


Давайте не забывать, вы мне не предъявили ни одну выборку, на которой перцептрон переобучился.

 
 
 
 Re: О перцептроне Розенблатта
Сообщение09.11.2025, 17:41 
mihaild в сообщении #1708469 писал(а):
Там, кстати, близкое к тому, что я написал по памяти, определение.
Цитата:

Given a hypothesis space $H$, a hypothesis $h \in H$ is said to overfit the training data if there exists some alternative hypothesis $h' \in H$, such that $h$ has smaller error than $h'$ over the training examples, but $h'$ has a smaller error than $h$ over the entire distribution of instances.

А как при этом вообще считается функционал качества гипотезы? Пространства всего распределения и обучающей выборки разные.

Кажется, сложно формализовать это интуитивное понятие так, чтобы определение получилось и формально корректным, и полезным. Неформально, экстраполяция всегда хуже интерполяции.

 
 
 
 Re: О перцептроне Розенблатта
Сообщение10.11.2025, 01:11 
Аватара пользователя
tac в сообщении #1708725 писал(а):
Да, нет, оно вполне себе соответствует Митчелу, только усреднено
Нет, не соответствует. Как минимум у Митчелла переобученность - это свойство кортежа (гипотеза, множество гипотез, обучающая выборка, генеральная совокупность).
tac в сообщении #1708725 писал(а):
Давайте не забывать, вы мне не предъявили ни одну выборку, на которой перцептрон переобучился
Во-первых, предъявил. Во-вторых, как это связано с процитированным?

В любом случае, главный вопрос. Вот Вы ввели понятие "алгоритм (некоторого вида) переобучился на данном разбиении на трейн/тест". И как-то назвали датасеты, на которых такое бывает. Что дальше-то?
realeugene в сообщении #1708737 писал(а):
А как при этом вообще считается функционал качества гипотезы? Пространства всего распределения и обучающей выборки разные.
Одинаковые.
Мы считаем, что у нас есть некоторое пространство признаков $X$ и таргетов $Y$. Обучающая выборка - это подмножество $X \times Y$, генеральная совокупность - соответственно распределение на $X \times Y$. Гипотеза - функция $X \to Y$ (или, иногда, в распределения на $Y$). У нас есть задана функция потерь $l(y_0, y)$ (опционально, второй аргумент может быть распределением). Ну например $l(y_0, y) = [y_0 \neq y]$. Ошибка гипотезы $h$ на выборке $D \subset X \times Y$ - это $\frac{\sum\limits_{(x, y) \in D} l(y, h(x))}{|D|}$ - просто средняя ошибка гипотезы на выборке.
(мелкие детали могут отличаться в разных вариантах изложения, но общая идея такая)

 
 
 
 Re: О перцептроне Розенблатта
Сообщение10.11.2025, 01:16 
mihaild в сообщении #1708773 писал(а):
Во-первых, предъявил.


Нет. После проверки, оказалось, что нет.

-- Пн ноя 10, 2025 02:18:54 --

mihaild в сообщении #1708773 писал(а):
Нет, не соответствует. Как минимум у Митчелла переобученность - это свойство кортежа (гипотеза, множество гипотез, обучающая выборка, генеральная совокупность).


Полистал я Митчела. Гипотеза - это не что иное, как модель прогнозирования. А конкретно, вид решающего дерева, построенного алгоритмом ID3.

-- Пн ноя 10, 2025 02:21:28 --

mihaild в сообщении #1708773 писал(а):
у Митчелла переобученность - это свойство кортежа (гипотеза


Таким образом, если бы вы серьезно читали бы Митчела, вы бы заметили бы, что переобученность у него это свойство модели прогнозирования, как собственно и у меня.

(Оффтоп)

Очень жалею, что потратил на вас столько времени, поверив, что вы правильно интерпретируете источники ..

 
 
 
 Re: О перцептроне Розенблатта
Сообщение10.11.2025, 01:48 
Аватара пользователя
tac в сообщении #1708774 писал(а):
Очень жалею, что потратил на вас столько времени, поверив, что вы правильно интерпретируете источники
Аналогично. Сделаю еще одну попытку, потом откланяюсь.
Цитата:
Given a hypothesis space $H$, a hypothesis $h \in H$ is said to overfit the training data if there exists some alternative hypothesis $h' \in H$, such that $h$ has smaller error than $h'$ over the training examples, but $h'$ has a smaller error than $h$ over the entire distribution of instances.

Выделенное жирным (в данном случае жирный шрифт мой) - это как раз то, что нам нужно задать, чтобы проверить переобученность гипотезы.
Т.е. если Вы мне принесете эту четверку - я смогу проверить, выполнено ли определение Митчелла. А если не принесете - то не смогу.
Определение универсальное, а не привязано конкретно к деревьям. Hypothesis space определяется на 14 странице (в издании 1997 года; я не знаю, существуют ли другие, но в любом случае можно найти в алфавитном указателе).
Это не вопрос интерпретации, это вопрос банального умения читать (и базового понимания, как даются определения).

 
 
 
 Re: О перцептроне Розенблатта
Сообщение10.11.2025, 18:42 
mihaild в сообщении #1708778 писал(а):
Hypothesis space определяется на 14 странице


Там нет никакого определения, там есть некоторое размышление

Цитата:

One useful perspective on machine learning is that it involves searching a very large space of possible hypotheses to determine one that best fits the observed data and any prior knowledge held by the learner. For example, consider the space of hypotheses that could in principle be output by the above checkers learner. This hypothesis space consists of all evaluation functions that can be represented by
some choice of values for the weights wo through w6. The learner's task is thus to search through this vast space to locate the hypothesis that is most consistent with the available training examples. The LMS algorithm for fitting weights achieves this goal by iteratively tuning the weights, adding a correction to each weight each time the hypothesized evaluation function predicts a value that differs from
the training value. This algorithm works well when the hypothesis representation considered by the learner defines a continuously parameterized space of potential hypotheses.

Один из полезных подходов к машинному обучению заключается в том, что оно включает в себя поиск в очень большом пространстве возможных гипотез для определения той, которая наилучшим образом соответствует наблюдаемым данным и любым априорным знаниям обучающегося. Например, рассмотрим пространство гипотез, которые в принципе могут быть выведены вышеупомянутым обучающимся. Это пространство гипотез состоит из всех функций оценки, которые могут быть представлены некоторым выбором значений весов от wo до w6. Таким образом, задача обучающегося состоит в поиске в этом обширном пространстве гипотезы, которая наиболее согласуется с доступными обучающими примерами. Алгоритм LMS для подбора весов достигает этой цели путем итеративной настройки весов, добавляя поправку к каждому весу каждый раз, когда предполагаемая оценочная функция предсказывает значение, отличающееся от обучающего значения. Этот алгоритм хорошо работает, когда представление гипотезы, рассматриваемое обучающимся, определяет непрерывно параметризованное пространство потенциальных
гипотез.



Ранее, он описывает систему обобщения (или в моих терминах модель прогнозирования),

Цитата:
The Generalizer takes as input the training examples and produces an output hypothesis that is its estimate of the target function. It generalizes from the specific training examples, hypothesizing a general function that covers these examples and other cases beyond the training examples. In our example, the Generalizer corresponds to the LMS algorithm, and the output hypothesis is the function f described by the learned weights wo, . . . , W6.

Обобщающий алгоритм принимает в качестве входных данных обучающие примеры и выдаёт выходную гипотезу, которая является его оценкой целевой функции. Он обобщает конкретные обучающие примеры, выдвигая гипотезу об общей функции, которая охватывает эти примеры и другие случаи, выходящие за рамки обучающих примеров. В нашем примере обобщающий алгоритм соответствует алгоритму LMS, а выходная гипотеза — это функция f, описываемая усвоенными весами wo,...,W6.



Так мы понимаем о каких весах собственно идет речь и к какому методу это применимо - к методу наименьших квадратов, который корректирует веса

Цитата:

For each observed training example it adjusts the weights a small amount in the direction that reduces the error on this training example. As discussed in Chapter 4, this algorithm can be
viewed as performing a stochastic gradient-descent search through the space of possible hypotheses (weight values) to minimize the squared enor E.

Известно несколько алгоритмов для нахождения весов линейной функции, минимизирующих E, заданную таким образом. В нашем случае нам нужен алгоритм, который будет постепенно уточнять веса по мере появления новых обучающих примеров и который будет устойчив к ошибкам в этих оценочных обучающих значениях. Один из таких алгоритмов называется алгоритмом наименьших средних квадратов, или правилом обучения LMS. Для каждого наблюдаемого обучающего примера он корректирует веса на небольшую величину в направлении, уменьшающем ошибку на этом обучающем примере. Как обсуждалось в Главе 4, этот алгоритм можно рассматривать как стохастический поиск методом градиентного спуска в пространстве возможных гипотез (значений веса) для минимизации квадрата ошибки E.


Таким образом, мы переходим от фикций о которых вы говорите, к тому, что пространство гипотез - это матрицы весов и ничего более, причем не произвольные, а соответствующие обученному на каждом шаге алгоритму.

Что является основой функционирования "модели прогнозирования". ч.т.д.

-- Пн ноя 10, 2025 19:45:32 --

задать пространство гипотез - означает сказать, что у меня float веса, размерностью 784х10000х10, полученные после каждого показа примера

-- Пн ноя 10, 2025 19:47:57 --

Таким образом, это сугубо относится к итеративному алгоритму обучения.

 
 
 
 Re: О перцептроне Розенблатта
Сообщение10.11.2025, 19:17 
Аватара пользователя
tac в сообщении #1708841 писал(а):
Так мы понимаем о каких весах собственно идет речь и к какому методу это применимо - к методу наименьших квадратов, который корректирует веса
Неправильно понимаете. Это был раздел 1.2, в котором он конструирует некоторый модельный пример обучающейся системы. А про пространство гипотез он говорит в 1.3.
Следующий абзац:
Цитата:
Many of the chapters in this book present algorithm that search a hypothesis space defined by some underlying representation (e.g., linear functions, logical descriptions, decision trees, artificial neural networks).
Какие веса в logical descriptions (10 часть)?
tac в сообщении #1708841 писал(а):
задать пространство гипотез
Значит задать множество $H$, и правило, по которому гипотеза делает предсказание. Часто считается что $H$ это подмножество функций из признаков в метки, соответственно правило тривиальное.
tac в сообщении #1708841 писал(а):
Таким образом, это сугубо относится к итеративному алгоритму обучения
Нет. Это универсальное определение, для любых моделей, и не зависит от алгоритма обучения.

Но в целом у меня нет большого желания доказывать Вам, что общепринятые определения общеприняты. Вы дали свои, и, наверное, хотите что-то про них сказать? (вопрос "о чем тема?" Вы несколько раз проигнорировали, приходится угадывать)

 
 
 
 Re: О перцептроне Розенблатта
Сообщение10.11.2025, 19:22 
mihaild в сообщении #1708842 писал(а):
Но в целом у меня нет большого желания доказывать Вам, что общепринятые определения общеприняты.


Аналогично, я лишь вижу, что вы интерпретируете их под своим углом зрения, игнорируя то, что написано, придумывая за автора.

-- Пн ноя 10, 2025 20:23:22 --

mihaild в сообщении #1708842 писал(а):
Часто считается что $H$ это подмножество функций из признаков в метки, соответственно правило тривиальное.


Ни о каких функциях он не говорит. Он явным образом говорит о весах и только.

 
 
 
 Re: О перцептроне Розенблатта
Сообщение10.11.2025, 19:32 
Аватара пользователя
tac в сообщении #1708843 писал(а):
Аналогично, я лишь вижу, что вы интерпретируете их под своим углом зрения, игнорируя то, что написано, придумывая за автора.
Нет Вы. Вы путаете примеры к определению с самим определением.
tac в сообщении #1708843 писал(а):
Он явным образом говорит о весах и только
mihaild в сообщении #1708842 писал(а):
Какие веса в logical descriptions (10 часть)?
Да и структуру деревьев неудобном представлять массивом весов.

tac в сообщении #1708843 писал(а):
Ни о каких функциях он не говорит
tac в сообщении #1708841 писал(а):
Это пространство гипотез состоит из всех функций оценки, которые могут быть представлены
[неважно как; жирный шрифт мой - mihaild]
(хотя перевод крайне неудачный; "оценивающие"/"оценочные" функции было бы куда лучше)

mihaild в сообщении #1708842 писал(а):
Вы дали свои, и, наверное, хотите что-то про них сказать?
О чём вообще тема?

 
 
 
 Re: О перцептроне Розенблатта
Сообщение10.11.2025, 19:37 
Путаница в этой науке происходит из-за определений, во многом маркетинговых. Нейроны - это вовсе не нейроны. Гипотезы не имеют никакого отношения к статистических гипотезам. Под гипотезами они понимают параметрические функции, множество гипотез - это просто множество рассматриваемых функций, необязательно функциональное пространство. Правильнее было бы говорить "гипотетические функции", а не гипотезы.

mihaild в сообщении #1708778 писал(а):
Given a hypothesis space $H$, a hypothesis $h \in H$ is said to overfit the training data if there exists some alternative hypothesis $ h'\in H$, such that $h$ has smaller error than $h'$ over the training examples, but $h'$ has a smaller error than $h$ over the entire distribution of instances.


Если данные генерируются полиномом 3-го порядка плюс шум, а подгоняеются эти данные полиномами 9-го порядка, $h$, то поведение полиномов высокого порядка вне выборки будет очень плохим, хотя на самой выборке fitting может быть перфектным. Полиномы 3-го порядка или 4-го порядка, $h'$ , будут намного лучше себя вести вне выборки ( the training examples).

 
 
 
 Re: О перцептроне Розенблатта
Сообщение10.11.2025, 20:36 
mihaild в сообщении #1708845 писал(а):
Это пространство гипотез состоит из всех функций оценки, которые могут быть представлены


ну так это тоже самое, но это не произвольные функции, а те которые может сделать алгоритм на основании своих весов. Это так или иначе устройство алгоритма. Функция между входом и выходом - т.е. предсказание, которое способен дать алгоритм с определенным устройством.

-- Пн ноя 10, 2025 21:41:00 --

mihaild в сообщении #1708845 писал(а):
ет Вы. Вы путаете примеры к определению с самим определением.


Это не я путаю, это Митчел путает. Хотите его поправлять, поправляйте - только не создавайте свою интерпретацию.

-- Пн ноя 10, 2025 21:43:51 --

(Оффтоп)

mihaild в сообщении #1708845 писал(а):
О чём вообще тема?


Я тут вдруг подумал, что на глупые вопросы давать ответ не буду.

 
 
 
 Re: О перцептроне Розенблатта
Сообщение11.11.2025, 07:18 
Аватара пользователя
mihaild в сообщении #1708845 писал(а):
О чём вообще тема?

+1
18 страниц в теме, хорошо бы уже сказать, про что она :)

 
 
 
 Re: О перцептроне Розенблатта
Сообщение11.11.2025, 11:10 
Тема о романтической любви к перцептронам. ТС от них прёт и перехватывает дыхание.

-- 11.11.2025, 11:17 --

dsge в сообщении #1708846 писал(а):
Гипотезы не имеют никакого отношения к статистических гипотезам. Под гипотезами они понимают параметрические функции, множество гипотез - это просто множество рассматриваемых функций, необязательно функциональное пространство.

В статистике вообще нет дискретных множеств гипотез?

В машинном обучении есть континуальные параметры. Чего не хватает? Меры?

Но в теории оценивания встречаются априорные распределения на множестве гипотез.

dsge в сообщении #1708846 писал(а):
Правильнее было бы говорить "гипотетические функции", а не гипотезы.
О, нет: каждой области своя терминология, в этом нет ничего плохого.

 
 
 [ Сообщений: 301 ]  На страницу Пред.  1 ... 15, 16, 17, 18, 19, 20, 21  След.


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group