Я совершенный новичок и в статистике, и в датамайнинге. Но передо мной стоит задача выбора наиболее вероятных связей между параметрами.
Подскажите, что почитать именно по этой теме, и как могут называться подходящие для этой задачи модели? Вообще, в каком направлении рыть?
А задача у меня такая: есть веб-паук, который собирает по всему интернету информацию о различных механизмах. Ну пусть для простоты это будут автомобили.
Проблема в том, что странички оформлены как попало, и глобальная задача -- запрограммировать паука так, чтобы он выдирал нужные параметры.
Пока эта задача решается следующим образом: паук для некоторой странички с (по его мнению) описанием автомобиля выдаёт набор параметров, например, марка -- такая-то, объём двигателя -- такой-то, количество цилиндров -- такое-то и т.д. Обозначим один такой набор символом
. Таких вариантов разбора -- наборов
-- паук может сгенерировать несколько (применяя разные шаблоны, эвристики и пр. к тексту странички). Среди них нужно выбрать наиболее правдоподобный вариант, он и будет считаться "правильным" вариантом разбора. Предварительные прикидки показывают, что способ неплохо должен работать, по-крайней мере, должен отсекать самые идиотические варианты.
Как определяется эта самая "правдоподобность"? Ну, я использую данные с сайтов-описаний автомобилей, они причёсаны под одну гребёнку и оттуда можно вытащить много гарантированно правильных описаний (правда, бывают ошибки в самих описаниях, но о них -- позже). Будем считать, что каждая такая машинка задаёт некое правильное соответствие параметров:
может встречаться с
(далее обозначу
),
и т.д.
Таким образом мы можем накопить базу соответствий параметров между собой. Причём не только пар, но и троек, и вообще
-ок параметров.
После этого, когда от паука мы получаем
, достаточно посмотреть, в каких
чаще встречаются нужные
-ки, именно этот вариант и считается самым правдоподобным.
Вот такое кустарное решение придумано на данный момент.
А теперь вопросы:- если стоит задача определения наиболее вероятных сочетаний параметров, то как она решается? Какой мат.аппарат для этого есть?
- с автомобилями всё ясно, теперь обобщим задачу вообще до механизмов. Из-за того, что данных по некоторым из них мало, то не для всех произвольных и удаётся найти связь; поэтому возникает задача вывода. Например, есть ли какой-то мат.аппарат, который из того, что и выводит ?
P.S. Пишу в раздел "Экономика и Финансовая математика", т.к. именно тут, похоже, больше занимаются датамайнингом, а ветки про статистику на этом сайте не нашёл.