Понимаете, что для решения задачи нужно столько данных, сколько нужно? То есть обучать что-то на недостатке данных можно, если требования к качеству решения невелико. Нужно определить какие-то эвристики, чтобы задача решилась успешнее...
Есть более быстро сходящиеся: случайный лес, градиентный бустинг...
|