Во-первых, в реальной жизни мы обычно не можем выбирать 

.
  Ну, навскидку, можно сделать так: расширим возможные значения функции-классификатора за счет нового значения 

. Например, если все значения исходного классификатора строго больше нуля, то можно положить 

.
  Теперь, пусть нам дали обучающую выборку 

   Подберем за счет выбора большого значения 

 равномерную сетку 

, 

 так, чтобы все точки 

 (с учетом точности округления) попадали в узлы этой сетки. Всем остальным узлам припишем значение классификатора  

. 
Как бы все. Образовалась новая обучающая выборка, которая в точности подходит для построения аппроксимации полиномом Бернштейна 

. 
Во-вторых, если я правильно понимаю, там для обучения нужна сетка по всем координатам - а число точек в такой сетке растет экспоненциально с размерностью. А теперь представьте, что мы хотим анализировать картинку размера хотя бы 

.
С учетом подхода с 

 нам нужны только точки сетки, на которую можно положить все точки исходной выборки. Не знаю, насколько это будет много.
Возможно, действительно, собака зарыта именно в этих моментах (меня подсознательно гложет мысль, что успех нейронных сетей и "метода отжига" базируется на одном и том же эффекте, наблюдающемся при больших размерностях. Но я все никак не могу уловить, что за он.)
Ну и, кстати, рассматривать изображение как вектор width x lenght-мерного пространства нельзя, так как такой подход игнорирует двумерность (ему что двумерное, что пятимерное - все равно), а значит, и естественную непрерывность. А мы изначально подразумевали, что классификатор как функция исходных данных должна быть непрерывной.