Можно ли - на элементарном уровне - пояснить, как выбирается совокупность параметров, служащая базисом?
Базис стандартный:) Вы, видимо, хотите спросить, как строятся вектора.
Совсем на пальцах - они строятся так, чтобы вектора слов, которые часто встречаются рядом, были похожи.
Вектора строятся градиентным спуском без явной целевой функции. На самом деле для каждого слова строится два вектора - левый 

 и правый 

. Мы берем два слова 

 и 

, которые расположены в тексте рядом, и градиентным спуском увеличиваем скалярное произведение 

. А еще мы берем случайное слово 

, и уменьшаем скалярное произведение 

. После чего выкидываем матрицу 

, оставляя только матрицу 

.
Леви и Голдберг показали, что в некоторым варианте это эквивалентно оптимизации 

, где 

 - вероятность того, что случайная пара слов окажется парой 

, 

 и 

 - частоты слов 

 и 

 соответственно, 

 - параметр алгоритма.
Тут есть хитрый момент - мы по сути оптимизируем некоторую функциюю от 

, а используем только 

. Но очевидно, что если мы возьмем 

, 

 для произвольной обратимой матрицы 

, то целевая функция не изменится, а вот наши скалярные произведения между строками матрицы 

 поменяются неизвестно как. Так что просто условия оптимальности относительно целевой функции недостаточно для получения хороших эмбеддингов, важно еще что-то. Что именно - я не знаю (и, видимо, никто не знает).
Но подход word embeddings, хотя и интересный, сейчас устарел. Современные подходы смотрят сразу на много слов.