Предлагаю участникам форума покритиковать следующую модель ассоциативной памяти. Она возникла у меня в голове в результате творческого переосмысления "современной Хопфилдовской" модели Дмитрия Кротова.
Пусть есть набор 

 пар векторов ключ-значение 

, 

 (Key-Value). Размерность векторного пространства ключей и размерность векторного пространства значений может быть разной:

Задача ассоциативной памяти состоит в том, чтобы по заданному вектору запроса 

 (Query) [принадлежащего векторному пространству ключей] вычислить вектор ответа 

 (Response) [принадлежащего векторному пространству значений], такой что если вектор запроса близок к какому-то вектору ключа 

, то вектор ответа должен быть близок к соответствующему вектору значения 

. 
Действуя в духе того, что в последнее время происходит в вычислительной науке, логично было бы записать функцию потерь (или 
энергию в терминах Хопфилдовской модели) в следующем виде:

Тогда для запроса 

 ответ 

 минимизирующий функцию 

 должен быть вычислен градиентным спуском:

 В явном виде:

Начальное условие: 

 при 

. В конечном состоянии 

 при 

Плюсы:
1) Процесса обучения такой модели вообще нет, так как набор 

 пар ключ-значение задан по условию.
Минусы:
1) Во время инференса надо численно решать дифференциальное уравнение.
2) Если 

 слишком велико, то процедура инференса становится слишком дорогой.
3) В связи с (2), модель годится только для случаев плавной зависимости 

 от 

, чем плавнее, тем лучше.