Во-первых, в реальной жизни мы обычно не можем выбирать

.
Ну, навскидку, можно сделать так: расширим возможные значения функции-классификатора за счет нового значения

. Например, если все значения исходного классификатора строго больше нуля, то можно положить

.
Теперь, пусть нам дали обучающую выборку

Подберем за счет выбора большого значения

равномерную сетку

,

так, чтобы все точки

(с учетом точности округления) попадали в узлы этой сетки. Всем остальным узлам припишем значение классификатора

.
Как бы все. Образовалась новая обучающая выборка, которая в точности подходит для построения аппроксимации полиномом Бернштейна

.
Во-вторых, если я правильно понимаю, там для обучения нужна сетка по всем координатам - а число точек в такой сетке растет экспоненциально с размерностью. А теперь представьте, что мы хотим анализировать картинку размера хотя бы

.
С учетом подхода с

нам нужны только точки сетки, на которую можно положить все точки исходной выборки. Не знаю, насколько это будет много.
Возможно, действительно, собака зарыта именно в этих моментах (меня подсознательно гложет мысль, что успех нейронных сетей и "метода отжига" базируется на одном и том же эффекте, наблюдающемся при больших размерностях. Но я все никак не могу уловить, что за он.)
Ну и, кстати, рассматривать изображение как вектор width x lenght-мерного пространства нельзя, так как такой подход игнорирует двумерность (ему что двумерное, что пятимерное - все равно), а значит, и естественную непрерывность. А мы изначально подразумевали, что классификатор как функция исходных данных должна быть непрерывной.