Последний раз редактировалось Paragraph 27.11.2017, 05:58, всего редактировалось 1 раз.
Первый шаг - это всегда качественная оценка даных (exploratory analysis). То есть, проводится предварительное качественное исследование данных через визуaлизацию и извлечение простейших характеристик и статистик (например, как распределены значения? унимодально, равномерно или как то еще? есть ли корреляция между столбцами? и т.д.). Время, потраченное на это, всегда окупается. Может оказаться, что невооруженным глазом видны закономерности или, наоборот, трудности, которые определят следующий шаг. По секрету, если кандидат при приеме к нам на работу пропускает этап "надо 'посмотреть' на данные" и начинает сразу сыпать названиями алгоритмов, то шансы его уменьшаются очень сильно. Далее, чем проще алгоритм, который берется для следующего шага, тем лучше. Если есть надежда, что классификация получится через простейшие линейные методы, не надо сразу хвататься за tensor flow (только потому, что это модно) или изобретать изощренное ядро для svn (только потому, что образование позволяет). Удивительно, сколько задач решается самыми базовыми методами с удовлетворительной точностью. Если Вам не статью писать про улучшение результата в конкретной области, то для заказчика простые решения предпочтительнее, чем ANN на тысячу-другую нейронов с сотней слоев, которую Вы тренировали месяц на сотне GPU и при этом не можете объяснить почему она выдает такие результаты и почему ошибается. Иными словами, начинайте с методов, котрые проще, которые понятны, ошибки которых легко проанализировать. Удачи.
|