2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу Пред.  1, 2
 
 Re: Матричные производные
Сообщение14.01.2019, 00:58 
Аватара пользователя


17/10/13
790
Деревня
Red_Herring
Кросс-энтропию. То есть $$ \sum\limits_{i}^{} -y_i \cdot \log f_i$$
Покомпонентно реализация будет медленной. Матричные вычисления в скорости выигрывают в разы, поэтому и нужна матричная реализация

 Профиль  
                  
 
 Re: Матричные производные
Сообщение14.01.2019, 01:10 
Заслуженный участник
Аватара пользователя


31/01/14
11393
Hogtown
Кто от чего зависит? По чему идет оптимизация? Где скаляры, где матрицы?

 Профиль  
                  
 
 Re: Матричные производные
Сообщение14.01.2019, 01:20 
Аватара пользователя


17/10/13
790
Деревня
Red_Herring в сообщении #1368490 писал(а):
Где скаляры, где матрицы?

У нас задача классификации рукописных цифр. Поэтому всего возможных классов - 10
$y$ - это матрица ответов (какой картинке соответсвует какая цифра) размера $(batch\_size, 10)$
$f$ - это матрица наших предсказаний, имеет размерность $(batch\_size, 10)$. То есть в каждой строке расположено 10 чисел - наши предсказания (вероятности) каждого из возможных классов.
$f$ при этом равно $f = softmax(XW + b)$. В шапке я изначально не указывал softmax просто для облегчения задачи

Red_Herring в сообщении #1368490 писал(а):
По чему идет оптимизация?

Оптимизация идет по $W, b$ - это параметры, которые мы можем настраивать

Red_Herring в сообщении #1368490 писал(а):
Кто от чего зависит?

$y$ не зависит ни от чего, это матрица правильных ответов. $f$ зависит от $X, W, b$. $X$ не зависит ни от кого - это входные данные, $W, b$ - настраиваемые параметры

-- 14.01.2019, 02:43 --

Ну и да, я изначально всё упростил до задачи оптимизации линейной функции лишь для того, чтобы показать, что у меня не сходятся размерности матриц

 Профиль  
                  
 
 Re: Матричные производные
Сообщение14.01.2019, 09:46 
Заслуженный участник
Аватара пользователя


11/03/08
10048
Москва
Red_Herring в сообщении #1368434 писал(а):
Матричной производной не существует.


Ну зачем же так резко? Вполне разработанная техника. Содержательно не более чем способ получать матрицу частных производных с малой затратой труда по сравнению с поэлементным выписыванием, но удобно.
Любят там, где много матричных выражений линейных или, по крайности, не выше второй степени. Статистика, эконометрика, ТАУ...
Вот, скажем, здесь описание:
https://docplayer.ru/54167195-1-matrich ... vanie.html
Да, некоммутативность существенна.

 Профиль  
                  
 
 Re: Матричные производные
Сообщение14.01.2019, 14:15 
Заслуженный участник
Аватара пользователя


31/01/14
11393
Hogtown
Евгений Машеров в сообщении #1368524 писал(а):
Вот, скажем, здесь описание
И где там "матричная производная"? Нет там такого термина, и ничего похожего в духе понимаемого ТС.
Они там дифференциалы пишут, и именно это я призываю делать ТС.

Разумеется, если есть скалярная функция матричного аргумента, то можно составить матрицу частных производных , но ТС подавай цепное правило, когда промежуточные функции не являются скалярами.

 Профиль  
                  
 
 Re: Матричные производные
Сообщение14.01.2019, 14:25 
Аватара пользователя


17/10/13
790
Деревня
Red_Herring в сообщении #1368601 писал(а):
но ТС подавай цепное правило, когда промежуточные функции не являются скалярами.

Да, цепное правило не применимо для произведений матриц, это я понял
И дифференциал я нашел, вопрос был только в том, как мне сделать шаг градиентного спуска, зная $d(L)$

 Профиль  
                  
 
 Re: Матричные производные
Сообщение20.01.2019, 16:00 
Аватара пользователя


13/08/13

4323
Red_Herring в сообщении #1368272 писал(а):
Например, производная (а лучше говорить о дифференциале!) $X^2$ будет $d(X^2)= X(dX) + (dX)X$, а $dX^{-1}=-X^{-1}(dx)X^{-1}$ и никак не иначе

А как вы получили последнее?
У меня просто получилось взять только дифференциалы натуральных степеней в некоммутирующей алгебре. :-)

-- 20.01.2019, 16:11 --

Red_Herring
А, понятно :mrgreen:
А как взять производную корня из матрицы? (и любого дробного показателя)
Ведь аналогичный прием не работает.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 22 ]  На страницу Пред.  1, 2

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group