|
ozheredov |
|
|
|
Дорогие форумчане! К своему стыду в этой области я не знаю не только методов, но даже терминологии! Итак, пусть будет простейшая задача: определить количество километров , которое пробегает спортсмен на открытом стадионе. Есть два параметра - температура воздуха и лингвистическое описание погодных условий типа {"fog", "rain"} или {"sunny"}. Обучаем систему на прецедентах - каждый прецедент - это строка с описанием и температурой, вот типа такая: {"fog", "rain", 13.4}, плюс "пробегнутая" ("пробеганная", вот как тут правильно?? :) ) дистанция. Заметьте, что описание погодных условий может содержать разное число атрибутов, но атрибуты все стандартные, из списка. Решение задачи - это алгоритм, выдающий прогноз дистанции в ответ на температуру и описание погоды. Please help me !! :)
P.S. Призываю в тред mserg & Евгений Машеров
|
|
|
|
 |
|
cepesh |
|
|
|
Возможно, вам пригодится почитать про "categorical features" и "one-hot encoding"
|
|
|
|
 |
|
ozheredov |
|
|
|
cepesh Спасибо большое, почитаю. Напишу сюда как возникнут вопросы
|
|
|
|
 |
|
Евгений Машеров |
|
|
|
Последний раз редактировалось Евгений Машеров 28.09.2017, 23:17, всего редактировалось 2 раз(а).
Простейший подход - качественная переменная, принимающая n значений, представляется (n-1) переменной, принимающей каждая значения 0 или 1, смотря какое состояние имело место. Одно из состояний кодируется нулями всех переменных (стоит выбрать для этого наиболее частое)
|
|
|
|
 |
|
Andrey_Kireew |
|
|
|
Как справедливо заметил Евгений Машеров, для Вашего случая, есть стандартный подход - фиктивные переменные (dummy variable), про него есть много информации в сети. От себя хотелось бы предложить ещё анализ соответствий. С его помощью можно наилучшим образом преобразовать набор категориальных данных, характеризующих погодные условия, в числовые признаки. Про него тоже есть кое что в сети, правда гораздо меньше.
|
|
|
|
 |