Где скаляры, где матрицы?
У нас задача классификации рукописных цифр. Поэтому всего возможных классов - 10

- это матрица ответов (какой картинке соответсвует какая цифра) размера


- это матрица наших предсказаний, имеет размерность

. То есть в каждой строке расположено 10 чисел - наши предсказания (вероятности) каждого из возможных классов.

при этом равно

. В шапке я изначально не указывал softmax просто для облегчения задачи
По чему идет оптимизация?
Оптимизация идет по

- это параметры, которые мы можем настраивать
Кто от чего зависит?

не зависит ни от чего, это матрица правильных ответов.

зависит от

.

не зависит ни от кого - это входные данные,

- настраиваемые параметры
-- 14.01.2019, 02:43 --Ну и да, я изначально всё упростил до задачи оптимизации линейной функции лишь для того, чтобы показать, что у меня не сходятся размерности матриц