Random forest classification

gena_termit · 16.01.2019, 19:58

Всем привет!
В общем мне необходимо изучить classification random forest.
Вроде бы по методу частично понятно. А как быть с данными. Они должны быть изначально разбиты на классы, или на классы разбиваются самостоятельно? Тогда по какому алгоритму? И какое количество классов оптимально? А если брать данные уже разбитые, где их можно взять?

Mihaylo · 16.01.2019, 21:07

Данные не разбиваются на классы, а объекты размечаются (каждый объект соотносится к определенному классу). Для методов классификации и регрессии требуются размеченные данные.

Кажется вы просто не прочитали первый параграф учебника по машинному обучению. Буквально 2 страницы. Сначала прочитайте, потом возвращайтесь с вопросами.

Где взять размеченные данные - вопрос, мне кажется, простой: либо разметить самостоятельно, либо отдать в аутсорсинг, можно применить краудфайндинг, можно найти готовые размеченные данные в открытом доступе, например, на kaggle.com.

Alex7 · 17.01.2019, 01:23

Если задача стоит изучить, то далеко ходить думаю не стоит.
Начните с встроенных дата сетов, например:

Код:

from sklearn.datasets import load_iris

Научный форум dxdy

Random forest classification