2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу Пред.  1, 2
 
 Re: Знакомство с обучением нейронной сети
Сообщение13.10.2024, 15:23 


15/11/15
1126
sergey zhukov в сообщении #1658387 писал(а):
Нет, я имел ввиду именно 5 параметров.

Тогда это просто функция от 10 переменных?
gevaraweb в сообщении #1658326 писал(а):
Это что же получается, можно взять любой закон из физики, с 5 величинами, и нагенерировать кучу датасетов и учебных задач на тему регрессии? Которые имеют физическообразный смысл. Ну и добавлять погрешности измерения к каждой величине.

Взял формулу прочности бетона, сгенерил 3000 строк данных для обучения, и 1000 строк для валидации.
Вышла задача предсказания прочности бетона.
Получилась как раз функция от 5 переменных

R_b (MPa) = f( A, A1, R_c (MPa), Ц/В, В/Ц )

Правда, две переменные обратны тут друг другу. Я думал, небольшие НС плохо видят обратные зависимости.
Но убрал В/Ц, сеть стала предсказывать лучше.
Попробовал также деревами, как и ожидал, они уверенно обгоняют НС.
Только если сохранять в ходе обучения наилучшие значения параметров, можно в НС приблизиться к результату, даваемыми деревами.
Также по сути A, A1 - категориальные переменные, можно над этим поработать.

 Профиль  
                  
 
 Re: Знакомство с обучением нейронной сети
Сообщение13.10.2024, 15:30 


17/10/16
5306
gevaraweb в сообщении #1658429 писал(а):
Тогда это просто функция от 10 переменных?

Ну что, переменные и параметры - это одно и то же что-ли? Вот у функции $z=Ax+By$ две переменные $x, y$ (то, что меняется в примерах и подается на вход сети) и два параметра $A, B$ (то, что для всех примеров одинаково).

 Профиль  
                  
 
 Re: Знакомство с обучением нейронной сети
Сообщение13.10.2024, 15:40 


15/11/15
1126
sergey zhukov в сообщении #1658430 писал(а):
(то, что для всех примеров одинаково).

А тогда я не понимаю, как параметр может влиять на количество нейронов, если он для всех примеров одинаков.

 Профиль  
                  
 
 Re: Знакомство с обучением нейронной сети
Сообщение13.10.2024, 15:52 


17/10/16
5306
gevaraweb
Нейронная сеть должна выучить параметры функции, а не ее переменные. Скажем, чтобы выучить функцию одной переменной вида $y= Ax$, сложная сеть не нужна. А чтобы выучить функцию одной переменной вида $y=Ax^2+Bx+C$, нужна уже сеть посложнее. Потому, что параметров больше (одна из причин, конечно).

 Профиль  
                  
 
 Re: Знакомство с обучением нейронной сети
Сообщение13.10.2024, 16:03 


15/11/15
1126
sergey zhukov в сообщении #1658433 писал(а):
Потому, что параметров больше (одна из причин, конечно).
Вот именно, непонятно, как тут разобраться, параметр играл ключевую роль или степень )

 Профиль  
                  
 
 Re: Знакомство с обучением нейронной сети
Сообщение13.10.2024, 16:07 


17/10/16
5306
gevaraweb
Понятно, что можно много разных функций с тремя параметрами придумать, и не все они "одинаково сложные". Но тем не менее число весов сети должно быть как минимум не меньше числа параметров.

 Профиль  
                  
 
 Re: Знакомство с обучением нейронной сети
Сообщение13.10.2024, 16:28 


15/11/15
1126
sergey zhukov в сообщении #1658438 писал(а):
Но тем не менее число весов сети должно быть как минимум не меньше числа параметров.
Наверно, хотя это вроде очень слабое и по сути бесполезное утверждение ))

 Профиль  
                  
 
 Re: Знакомство с обучением нейронной сети
Сообщение23.04.2025, 16:47 


17/10/16
5306
Вот еще такой вопрос. Когда рассказывают про градиентный спуск, то вычисление самого градиента - это как-бы операция без настроек. Но ведь его же численно подсчитывают. И при этом нужно делать какие-то малые смещения по переменным. Имеет смысл делать их (смещения) как можно меньше, чтобы добиваться точности градиента? Или тут иногда лучше эти шаги специально увеличивать?

 Профиль  
                  
 
 Re: Знакомство с обучением нейронной сети
Сообщение23.04.2025, 16:52 
Заслуженный участник
Аватара пользователя


16/07/14
9637
Цюрих
sergey zhukov в сообщении #1683478 писал(а):
Но ведь его же численно подсчитывают
Нет, для нейронок градиент считают аналитически, называется back propagation.

 Профиль  
                  
 
 Re: Знакомство с обучением нейронной сети
Сообщение24.04.2025, 07:56 


12/07/15
3546
г. Чехов
sergey zhukov имел в виду, что градиент вычисляется аналитически только для текущей точки в гиперпространстве ответа. Применяя градиент, мы пошагово передвигаем эту точку...

sergey zhukov
Слишком высокая скорость обучения (learning rate) - плохо, потому что начинаешь скакать по оврагу, по горкам, не достигая какой-нибудь локальной ямы, борозды... Слишком медленное обучение - вроде все хорошо, но медленно, и нет никакой разницы, если ускорить процесс поиска локального минимума.
Часто скорость обучения можно понижать пару раз, например, в начале 10e-3, потом 3e-4 и в конце добивка 1e-4.

 Профиль  
                  
 
 Re: Знакомство с обучением нейронной сети
Сообщение24.04.2025, 08:12 


17/10/16
5306
Mihaylo
Да нет, я как раз имел ввиду численный подсчет самого градиента. Размер шага в его антинаправлении - это уже другое. Наверное, есть задачи, где так делают (численно считают градиент), не везде же аналитически производные можно посчитать.

 Профиль  
                  
 
 Re: Знакомство с обучением нейронной сети
Сообщение24.04.2025, 08:43 


27/08/16
11725
sergey zhukov в сообщении #1683536 писал(а):
Да нет, я как раз имел ввиду численный подсчет самого градиента. Размер шага в его антинаправлении - это уже другое. Наверное, есть задачи, где так делают (численно считают градиент), не везде же аналитически производные можно посчитать.
При слишком малом шаге, градиент станет меньше шумов округления при его вычислении. При численном дифференцировании вычисляются разности близких чисел.

 Профиль  
                  
 
 Re: Знакомство с обучением нейронной сети
Сообщение24.04.2025, 13:05 
Заслуженный участник
Аватара пользователя


16/07/14
9637
Цюрих
sergey zhukov в сообщении #1683536 писал(а):
Наверное, есть задачи, где так делают (численно считают градиент), не везде же аналитически производные можно посчитать.
В принципе есть, и в учебниках по ЧМам целые главы про численное вычисление производных.
Но для нейронок, которые композиция линейных отображений и известных функций одной переменной (как правило еще и специально подобранных так, чтобы $f'(x)$ легко выражалась через $f(x)$), оно не нужно.
Mihaylo в сообщении #1683534 писал(а):
Часто скорость обучения можно понижать
Это назывыается learning rate schedule. Адаптивные методы к нему, как правило, менее чувствительны, но это всё еще отдельное искусство.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 28 ]  На страницу Пред.  1, 2

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group