2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Модель для правильного подбора параметров
Сообщение25.07.2013, 14:31 


16/03/11
31
Я совершенный новичок и в статистике, и в датамайнинге. Но передо мной стоит задача выбора наиболее вероятных связей между параметрами.
Подскажите, что почитать именно по этой теме, и как могут называться подходящие для этой задачи модели? Вообще, в каком направлении рыть?

А задача у меня такая: есть веб-паук, который собирает по всему интернету информацию о различных механизмах. Ну пусть для простоты это будут автомобили.
Проблема в том, что странички оформлены как попало, и глобальная задача -- запрограммировать паука так, чтобы он выдирал нужные параметры.

Пока эта задача решается следующим образом: паук для некоторой странички с (по его мнению) описанием автомобиля выдаёт набор параметров, например, марка -- такая-то, объём двигателя -- такой-то, количество цилиндров -- такое-то и т.д. Обозначим один такой набор символом $V_i = \langle p_1, p_2, \ldots, p_n \rangle$. Таких вариантов разбора -- наборов $V_1, \ldots, V_m$ -- паук может сгенерировать несколько (применяя разные шаблоны, эвристики и пр. к тексту странички). Среди них нужно выбрать наиболее правдоподобный вариант, он и будет считаться "правильным" вариантом разбора. Предварительные прикидки показывают, что способ неплохо должен работать, по-крайней мере, должен отсекать самые идиотические варианты.

Как определяется эта самая "правдоподобность"? Ну, я использую данные с сайтов-описаний автомобилей, они причёсаны под одну гребёнку и оттуда можно вытащить много гарантированно правильных описаний (правда, бывают ошибки в самих описаниях, но о них -- позже). Будем считать, что каждая такая машинка задаёт некое правильное соответствие параметров: $p_1$ может встречаться с $p_2$ (далее обозначу $p_1 \sim p_2$), $p_2 \sim p_3$ и т.д.
Таким образом мы можем накопить базу соответствий параметров между собой. Причём не только пар, но и троек, и вообще $n$-ок параметров.

После этого, когда от паука мы получаем $V_1, \ldots, V_m$, достаточно посмотреть, в каких $V_i$ чаще встречаются нужные $n$-ки, именно этот вариант и считается самым правдоподобным.

Вот такое кустарное решение придумано на данный момент.

А теперь вопросы:
  • если стоит задача определения наиболее вероятных сочетаний параметров, то как она решается? Какой мат.аппарат для этого есть?
  • с автомобилями всё ясно, теперь обобщим задачу вообще до механизмов. Из-за того, что данных по некоторым из них мало, то не для всех произвольных $p_i$ и $p_j$ удаётся найти связь; поэтому возникает задача вывода. Например, есть ли какой-то мат.аппарат, который из того, что $p_a \sim p_b$ и $p_b \sim p_c$ выводит $p_a \sim p_c$?

P.S. Пишу в раздел "Экономика и Финансовая математика", т.к. именно тут, похоже, больше занимаются датамайнингом, а ветки про статистику на этом сайте не нашёл.

 Профиль  
                  
 
 Re: Модель для правильного подбора параметров
Сообщение13.08.2013, 11:11 
Заблокирован


16/06/09

1547
Вообще для таких задач используется МНК, но если совсем круто, то есть и кластеризация, нейронные сети, методы распознавания образов. Но смысла такой крутизной пичкать вашего робота нет. Достаточно будет многомерного МНК.

-- Вт авг 13, 2013 12:12:05 --

malphunction в сообщении #749118 писал(а):
Например, есть ли какой-то мат.аппарат, который из того, что $p_a \sim p_b$ и $p_b \sim p_c$ выводит $p_a \sim p_c$?
есть круче, например в гугле

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 2 ] 

Модераторы: zhoraster, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group