Поиск наиболее подходящего алгоритма для задачи

Af0nya · 24/11/17 2

Добрый день!

Возникла задача для которой требуется подобрать алгоритм, который будет помогать принять решение с долей вероятности.
Реализация планируется на MS Azure ML.

Хотел бы заручиться вашими советами относительно данного вопроса, к сожалению больше входных данных предоставить не имеется возможности.

Могу только сказать, что есть таблицас данными, есть столбец ключевой, в котором по факту и будут результаты (допустим классфикация)
В большинстве столбцов содержатся константные значения, но есть и столбцы в которых используются данные, написаные в свободном стиле (это отдельная задача их обработки - тегирование или что-то еще)
Алгоритм должен обучиться на этих данных и при подаче новой строки с данными предоставить наиболее вероятную классификацию.

Я понимаю, что под эту задачу могут подойти разные алгоритмы, буду готов выслушать все идеи, потому что их придется сравнивать для анализа.

Заранее спасибо!

Mihaylo · 12/07/15 3648 г. Чехов

Ну это один из основных вопросов машинного обучения - подобрать алгоритм под заданные требования. Этому учатся, проходя практику.
Скажем так, по Вашим требованиям проходят все алгоритмы машинного обучения, выполняющие классификацию. А может Вы и не знаете разницу между задачей классификации и задачей регрессии, Вам на самом деле нужны методы регрессионного анализа, а не классификации...

Paragraph · 01/05/17 50 Где я?

Первый шаг - это всегда качественная оценка даных (exploratory analysis). То есть, проводится предварительное качественное исследование данных через визуaлизацию и извлечение простейших характеристик и статистик (например, как распределены значения? унимодально, равномерно или как то еще? есть ли корреляция между столбцами? и т.д.). Время, потраченное на это, всегда окупается. Может оказаться, что невооруженным глазом видны закономерности или, наоборот, трудности, которые определят следующий шаг. По секрету, если кандидат при приеме к нам на работу пропускает этап "надо 'посмотреть' на данные" и начинает сразу сыпать названиями алгоритмов, то шансы его уменьшаются очень сильно.
Далее, чем проще алгоритм, который берется для следующего шага, тем лучше. Если есть надежда, что классификация получится через простейшие линейные методы, не надо сразу хвататься за tensor flow (только потому, что это модно) или изобретать изощренное ядро для svn (только потому, что образование позволяет). Удивительно, сколько задач решается самыми базовыми методами с удовлетворительной точностью. Если Вам не статью писать про улучшение результата в конкретной области, то для заказчика простые решения предпочтительнее, чем ANN на тысячу-другую нейронов с сотней слоев, которую Вы тренировали месяц на сотне GPU и при этом не можете объяснить почему она выдает такие результаты и почему ошибается. Иными словами, начинайте с методов, котрые проще, которые понятны, ошибки которых легко проанализировать.
Удачи.

Af0nya · 24/11/17 2

Спасибо вам большое за советы!

Как раз-таки я осознаю всю ответственность подготовки данных как большую часть залога успеха. Проблема заключается в том, что используется чужая для меня среда, где применяются всевозможные алгоритмы. Времени просто с этим разбираться очень мало, да и опыта на уровне университета. Поэтому решил написать на этот форум.

Но я всегда готов прислушаться к любым советам, еще раз спасибо!

Научный форум dxdy

Поиск наиболее подходящего алгоритма для задачи

Кто сейчас на конференции