2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу Пред.  1, 2
 
 Re: Матричные производные
Сообщение14.01.2019, 00:58 
Аватара пользователя


17/10/13
790
Деревня
Red_Herring
Кросс-энтропию. То есть $$ \sum\limits_{i}^{} -y_i \cdot \log f_i$$
Покомпонентно реализация будет медленной. Матричные вычисления в скорости выигрывают в разы, поэтому и нужна матричная реализация

 Профиль  
                  
 
 Re: Матричные производные
Сообщение14.01.2019, 01:10 
Заслуженный участник
Аватара пользователя


31/01/14
11305
Hogtown
Кто от чего зависит? По чему идет оптимизация? Где скаляры, где матрицы?

 Профиль  
                  
 
 Re: Матричные производные
Сообщение14.01.2019, 01:20 
Аватара пользователя


17/10/13
790
Деревня
Red_Herring в сообщении #1368490 писал(а):
Где скаляры, где матрицы?

У нас задача классификации рукописных цифр. Поэтому всего возможных классов - 10
$y$ - это матрица ответов (какой картинке соответсвует какая цифра) размера $(batch\_size, 10)$
$f$ - это матрица наших предсказаний, имеет размерность $(batch\_size, 10)$. То есть в каждой строке расположено 10 чисел - наши предсказания (вероятности) каждого из возможных классов.
$f$ при этом равно $f = softmax(XW + b)$. В шапке я изначально не указывал softmax просто для облегчения задачи

Red_Herring в сообщении #1368490 писал(а):
По чему идет оптимизация?

Оптимизация идет по $W, b$ - это параметры, которые мы можем настраивать

Red_Herring в сообщении #1368490 писал(а):
Кто от чего зависит?

$y$ не зависит ни от чего, это матрица правильных ответов. $f$ зависит от $X, W, b$. $X$ не зависит ни от кого - это входные данные, $W, b$ - настраиваемые параметры

-- 14.01.2019, 02:43 --

Ну и да, я изначально всё упростил до задачи оптимизации линейной функции лишь для того, чтобы показать, что у меня не сходятся размерности матриц

 Профиль  
                  
 
 Re: Матричные производные
Сообщение14.01.2019, 09:46 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
Red_Herring в сообщении #1368434 писал(а):
Матричной производной не существует.


Ну зачем же так резко? Вполне разработанная техника. Содержательно не более чем способ получать матрицу частных производных с малой затратой труда по сравнению с поэлементным выписыванием, но удобно.
Любят там, где много матричных выражений линейных или, по крайности, не выше второй степени. Статистика, эконометрика, ТАУ...
Вот, скажем, здесь описание:
https://docplayer.ru/54167195-1-matrich ... vanie.html
Да, некоммутативность существенна.

 Профиль  
                  
 
 Re: Матричные производные
Сообщение14.01.2019, 14:15 
Заслуженный участник
Аватара пользователя


31/01/14
11305
Hogtown
Евгений Машеров в сообщении #1368524 писал(а):
Вот, скажем, здесь описание
И где там "матричная производная"? Нет там такого термина, и ничего похожего в духе понимаемого ТС.
Они там дифференциалы пишут, и именно это я призываю делать ТС.

Разумеется, если есть скалярная функция матричного аргумента, то можно составить матрицу частных производных , но ТС подавай цепное правило, когда промежуточные функции не являются скалярами.

 Профиль  
                  
 
 Re: Матричные производные
Сообщение14.01.2019, 14:25 
Аватара пользователя


17/10/13
790
Деревня
Red_Herring в сообщении #1368601 писал(а):
но ТС подавай цепное правило, когда промежуточные функции не являются скалярами.

Да, цепное правило не применимо для произведений матриц, это я понял
И дифференциал я нашел, вопрос был только в том, как мне сделать шаг градиентного спуска, зная $d(L)$

 Профиль  
                  
 
 Re: Матричные производные
Сообщение20.01.2019, 16:00 
Аватара пользователя


13/08/13

4323
Red_Herring в сообщении #1368272 писал(а):
Например, производная (а лучше говорить о дифференциале!) $X^2$ будет $d(X^2)= X(dX) + (dX)X$, а $dX^{-1}=-X^{-1}(dx)X^{-1}$ и никак не иначе

А как вы получили последнее?
У меня просто получилось взять только дифференциалы натуральных степеней в некоммутирующей алгебре. :-)

-- 20.01.2019, 16:11 --

Red_Herring
А, понятно :mrgreen:
А как взять производную корня из матрицы? (и любого дробного показателя)
Ведь аналогичный прием не работает.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 22 ]  На страницу Пред.  1, 2

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: DLL


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group