2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Нужен совет по корреляционному анализу
Сообщение26.05.2012, 11:26 
Доброго дня. Надеюсь на помощь участников форума по сабжу.
Итак, предметная область - маршрутизация данных в Интернет. Для построения маршрутов используется протокол BGP, который каждой удаленной IP-сети сопоставляет упорядоченное множество провайдеров (т.н. автономных систем), через которых пакет пройдет, прежде чем достигнет сети назначения. Например, до сети N от данного маршрутизатора могут существовать 3 потенциальные маршрута:
R_pot1 = 10, 20, 30, 40
R_pot2 = 10, 70, 90, 40
R_pot3 = 10, 80, 60, 40
где каждый член множества - номер автономной системы (АС) провайдера.
10 - исходная АС
40 - АС назначения

Также, для каждой сети существует лучший маршрут из множества потенциальных. Лучший с точки зрения BGP.
Пусть R_best = R_pot2.

Но! Современные маршрутизаторы выбирают маршруты не только на основе IP-адреса назначения (не буду вдаваться в потробности).
Поэтому фактический маршрут может отличаться от лучшего и вообще проходить через провайдеров, не указанных в потенциальных маршрутах. Например:
R_fact = 10, 20, 35, 60, 40
В моем распоряжении есть статистические данные и о потенциальных, и о лучших, и о фактических маршрутах.

Собственно в чем состоит проблема: установить статистическую взаимосвязь между R_fact и R_best, а также между R_fact и множеством R_pot.

Трудность в том, что номера это не просто числа, а объекты реального мира, т.е. корреляция (1,2,3,4,5) и (10,20,30,40,50) в данном случае не 1, как в классическом анализе, а 0, поскольку ни один провайдер не совпал.

 
 
 
 Re: Нужен совет по корреляционному анализу
Сообщение28.05.2012, 10:46 
Мой вопрос можно переформулировать так: как преобразовать исходные данные так, чтобы к ним можно было применить классические методы корреляционного анализа.
Все тот же пример, пусть

R_pot1 = 10, 20, 30, 40
R_pot2 = 10, 70, 90, 40
R_pot3 = 10, 80, 60, 40
R_best = R_pot2 = 10, 70, 90, 40
R_fact = 10, 20, 35, 60, 40

Введем правило: если элемент из потенциального маршрута входит в фактический, его вес равен 1, в противном случае - 0.
Тогда множества примут вид

R_pot1 = 1, 1, 0, 1
R_pot2 = 1, 0, 0, 1
R_pot3 = 1, 0, 1, 1
R_best = R_pot2 = 1, 0, 0, 1
R_fact = 1, 1, 1, 1, 1

Если отбросить первую и последнюю АС в каждом маршруте (они всегда совпадают и равны 1), получим

R_pot1 = 1, 0
R_pot2 = 0, 0
R_pot3 = 0, 1
R_best = 0, 0
R_fact = 1, 1, 1

Выводы:
1) лучший маршрут не соответствует фактическому
2) в фактическом маршруте присутствуют АС, не входящие ни в один из потенциальных маршрутов

Насколько к задаче в такой постановке подходит корреляционный анализ? По-моему, он не совсем подходит.
Какие методы обработки статистических данных уместны для решения моей задачи?
Спасибо

 
 
 
 Re: Нужен совет по корреляционному анализу
Сообщение30.05.2012, 15:16 
Цитата:
Насколько к задаче в такой постановке подходит корреляционный анализ? По-моему, он не совсем подходит.
Какие методы обработки статистических данных уместны для решения моей задачи?
Спасибо


по-моему тоже, корреляционный анализ сюда совсем не подходит

для решения твоей задачи уместны не статистические методы, а методы теории графов

 
 
 
 Re: Нужен совет по корреляционному анализу
Сообщение01.06.2012, 09:47 
Спасибо, в том что КА не подходит я уже убедился.
Теория графов используется, но для обработки статистических данных в моем случае не подходит.

В итоге я решил использовать коэффициент сходства
http://ru.wikipedia.org/wiki/%D0%9A%D0% ... 0%B2%D0%B0
а конкретно - коэффициент Райского.
Работает так, как и надо)

 
 
 
 Re: Нужен совет по корреляционному анализу
Сообщение01.06.2012, 15:55 
коэффициент Райского там по ссылке я не нашел, какая для него формула?

 
 
 
 Re: Нужен совет по корреляционному анализу
Сообщение05.06.2012, 07:22 
По приведенной ссылке - общая информация по коэффициентам сходства
Теорию по к.Райского можно посмотреть вот тут:
Raijski C. A metric space of discrete probability distributions // Information and Control. — №4., Выпуск 4. — 1961. — c. 371-377
Raijski C. Entropy and metric spaces // Information Theory. — 1961. — c. 41-45

А если говорить о приложении к моей задаче, то я буду делать так:
Изображение

И спасибо за внимание к моей теме

 
 
 
 Re: Нужен совет по корреляционному анализу
Сообщение09.06.2012, 00:56 
и Вам спасибо - ознакомились с новым коэффициентом :-)

 
 
 [ Сообщений: 7 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group