Уберите "миллионные" датасеты, замените на "тысячные", и у Вас ничего не получится.
А как же десятки тысяч из вашего первого сообщения?
Чо сразу тысячи?
Датасеты для классификация планктона и галактик на Kaggle, припоминаю, содержали десятки тысяч фотографий. И "все получилось".
Основной мессадж был какой?
Хронологически, сначала появились большие объемы данных. Бума не случилось. А когда появилась соответствующая математика и железа, случился бум, - это и явилось триггером. Если хронологически двигаться назад, то можно уйти куда угодно, вплоть до цифровой фотографии и объявить это необходимым и самым главным. Среди тех, кто хоть немного интересуется ML, несомненно знает об необходимости больших объемов для обучения нейросетей.
P.S. От себя лично я редко пишу. Насчет нейросетей, - вспомнил статью Моргана (м.б. из клана банкиров Морганов - не изучал вопрос), размещенной на сайте нумераи. Так вот, он рассуждал на тему прогресса в машинном обучении, и отмечал ключевые моменты. Акцентированы эффективная математика и железо для NN, и также отмечал технологию случайных деревьев.
Далее он рассуждал на тему, как ML прикрутить к финансам - игра на бирже и все такое. Проблема в том, данные в финансах закрыты, а любители ML - рассредоточены по всему земному шару. Решением он видит особый вид криптографии, когда данные преобразуются таким образом, чтобы затруднительно было понять, к чему они относятся, но (возможные) существующие закономерности сохранились. Результаты прогнозирования любителей ИИ можно объединять по принципу голосующих деревьев, и т.д. выстроена целая бизнес-модель.
Поэтому, сам я не причем. В битве мнений о "главном"
Mihaylo vs Морган ставлю на Моргана.