RField[0] - это выход нейросети, он ни как не коррелирует со вторым выходом RField[1]. Они зависят ни от need, а от работы первого слоя и второго слоя нейросети.
А как считается RField?
Я думал как
Rfield[j] это сумма
WeightAR[i][j] * AField[i] по
i. Нет?
Если да, то, т.к.
AField[i] не зависит от
j, а
WeightAR[i][0] = -WeightAR[i][1] по предположению (1), то
RField[0] = -RField[1] (я выше написал неправильно, забыл, что
RField считается до приведения к

, перепутав его с
output).
я уже говорил, что не итеративные солверы нам не интересны, они не создают модели обобщения
А что такое "модели обобщения", и зачем они нужны?
И каким образом почти один и тот же вектор коэффициентов (а для логистической регрессии можно доказать, что он получится почти одинаковым), полученный разными способами, в одном случае "создает модель обобщения", а в другом нет?
Если сильно хочется - могу предложить такой вариант. Я даже руками напишу градиентный спуск для логрега, и запущу в двух вариантах - с перемешиванием после каждой эпохи и без. И даже сразу откажусь от возможности сжульничать и поставлю
batch_size=1 
Если при перемешивании результаты получатся сильно отличными от
post1708435.html#p1708435 (ну например разрыв с монеткой на тесте сократится более чем вдвое) - я перевожу в благотворительную организацию по Вашему выбору 10 долларов. Если не получатся - соответственно десять долларов в благотворительную организацию по моему выбору переводите Вы.
(подберём что-нибудь, что не является запрещенным в соответствующей юрисдикции)
Подходит?
обобщаете понятие логистической регрессии до нейронной сети с одним слоем
Не обобщаю. Я говорю, что логистическая регрессия - это частный случай нейронки. Разумеется, сильно не любая нейронка - логистическая регрессия.
А то, что LLM лучше "вас" (в том же смысле) обобщает логистическую регрессию на многозадачность
Говорит о том, что она зачем-то придумала какую-то свою невнятную модель, которую обозвала логистической регрессией. Потому что в обычной логистической регрессии непонятно куда пихать "shared" веса.
говорит о том, что у нас разные модели, которые вы по прежнему хотите называть одинаково
Я как раз не хочу. Я хочу общепринятые названия использовать в общепринятом смысле, а всем желающим вводить новые сущности предлагаю сразу вводить для них и новые слова.
Проверка, которая показывает, что данный набор обучающей выборки с тестовой выборкой имеет предсказательную силу не больше подбрасывания монетки, имеет высокую практическую ценность, т.к. позволяет сказать что такое обучение не будет иметь никакой предсказательной силы
Понимаете ли Вы, что эта проверка
зависит от используемой модели. И даёт разные результаты для вашего перцептрона и для логистической регрессии?
(Оффтоп)
Я правильно понимаю, что тут реинкарнация спора о том, можно ли проводить прямую через две точки, или нужно минимум через три?
Да вроде нет, никакой связи я не вижу.
-- 07.11.2025, 17:40 --И собственно вы тоже подсовываете мне такие же задачи, и неправомерно вывод обобщаете на все датасеты
Не на все. На всех датасетах ни одна модель не лучше любой другой.
Я Вам подсовываю датасеты, удовлетворяющие заданным Вами же свойствам.
На всякий случай - какое в точности утверждение Вы хотите доказать?
Что "на связанных по Жаккарду датасетах перцептрон не переобучается"? Это неправда.
Что "на нравящихся
tac датасетах перцептрон не переобучается"? Это, возможно, правда. Но остается вопрос, как нам, перед запуском модели в продакшн, проверить, что данные, которые будут приходить от пользователей Вам понравятся :)
(и еще - что делать с задачами, которые Вам не нравятся, но которые решать надо; ну и до кучи - а существуют ли полезные для практики задачи, которые Вам нравятся)