Модель для правильного подбора параметров

malphunction · 25.07.2013, 14:31

Я совершенный новичок и в статистике, и в датамайнинге. Но передо мной стоит задача выбора наиболее вероятных связей между параметрами.
Подскажите, что почитать именно по этой теме, и как могут называться подходящие для этой задачи модели? Вообще, в каком направлении рыть?

А задача у меня такая: есть веб-паук, который собирает по всему интернету информацию о различных механизмах. Ну пусть для простоты это будут автомобили.
Проблема в том, что странички оформлены как попало, и глобальная задача -- запрограммировать паука так, чтобы он выдирал нужные параметры.

Пока эта задача решается следующим образом: паук для некоторой странички с (по его мнению) описанием автомобиля выдаёт набор параметров, например, марка -- такая-то, объём двигателя -- такой-то, количество цилиндров -- такое-то и т.д. Обозначим один такой набор символом $V_i = \langle p_1, p_2, \ldots, p_n \rangle$ . Таких вариантов разбора -- наборов $V_1, \ldots, V_m$ -- паук может сгенерировать несколько (применяя разные шаблоны, эвристики и пр. к тексту странички). Среди них нужно выбрать наиболее правдоподобный вариант, он и будет считаться "правильным" вариантом разбора. Предварительные прикидки показывают, что способ неплохо должен работать, по-крайней мере, должен отсекать самые идиотические варианты.

Как определяется эта самая "правдоподобность"? Ну, я использую данные с сайтов-описаний автомобилей, они причёсаны под одну гребёнку и оттуда можно вытащить много гарантированно правильных описаний (правда, бывают ошибки в самих описаниях, но о них -- позже). Будем считать, что каждая такая машинка задаёт некое правильное соответствие параметров: $p_1$ может встречаться с $p_2$ (далее обозначу $p_1 \sim p_2$ ), $p_2 \sim p_3$ и т.д.
Таким образом мы можем накопить базу соответствий параметров между собой. Причём не только пар, но и троек, и вообще $n$ -ок параметров.

После этого, когда от паука мы получаем $V_1, \ldots, V_m$ , достаточно посмотреть, в каких $V_i$ чаще встречаются нужные $n$ -ки, именно этот вариант и считается самым правдоподобным.

Вот такое кустарное решение придумано на данный момент.

А теперь вопросы:

если стоит задача определения наиболее вероятных сочетаний параметров, то как она решается? Какой мат.аппарат для этого есть?
с автомобилями всё ясно, теперь обобщим задачу вообще до механизмов. Из-за того, что данных по некоторым из них мало, то не для всех произвольных $p_i$ и $p_j$ удаётся найти связь; поэтому возникает задача вывода. Например, есть ли какой-то мат.аппарат, который из того, что $p_a \sim p_b$ и $p_b \sim p_c$ выводит $p_a \sim p_c$ ?

P.S. Пишу в раздел "Экономика и Финансовая математика", т.к. именно тут, похоже, больше занимаются датамайнингом, а ветки про статистику на этом сайте не нашёл.

temp03 · 13.08.2013, 11:11

Вообще для таких задач используется МНК, но если совсем круто, то есть и кластеризация, нейронные сети, методы распознавания образов. Но смысла такой крутизной пичкать вашего робота нет. Достаточно будет многомерного МНК.

-- Вт авг 13, 2013 12:12:05 --

malphunction в сообщении #749118 писал(а):

Например, есть ли какой-то мат.аппарат, который из того, что $p_a \sim p_b$ и $p_b \sim p_c$ выводит $p_a \sim p_c$ ?

есть круче, например в гугле

Научный форум dxdy

Модель для правильного подбора параметров