проблема повторения сенсомоторного опыта человека
Какого конкретно? Почему это необходимо для решения t2t задач?
Ладно я придумаю какой-нибудь пример, но он может оказаться дурацким или просто неудачным. Например, текстом может быть какой-то такой диалог, который так или иначе текущие несловесные ощущения, не знаю, это может быть секс мужчины и женщины. Нейросеть обучится на этом диалоге, но не уловит связь с сексом. Для неё это покажется просто текстом ради текста. Хотя для человека может быть всё очевидным. Отсутствие мультимодальности (когда текст подкрепляется другими видами информации) понижает уровень понимания.