Если обучить модель на двух языках, и тексты на них как-то соотносятся, то модель можно использовать в качестве переводчика. Даже для примитивного word2vec это немного работает: если обучить эмбеддинги для русского и английского, то будет линейное преобразование, дающее перевод (пословный, конечно).
Я не уверен, что это проверялось, но, скорее всего, если обучить модель на русском и английском корпусах, то запросы вида "скажи по-русски london is the capital of great britain" она выполнять сможет, даже если в обучающей выборке не было ни одного текста, в котором одновременно есть кириллица и латиница.
Возможно ли при этом разграничить обучающие дата-сеты таким образом, чтобы из одного брались знания о нашем мире, а из другого - язык инопланетян?
В обучении LLM вообще нет такого понятия, как "знания о мире" или "язык".