2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Параллельная линейная регрессия
Сообщение24.01.2009, 14:17 
Аватара пользователя
Есть множество наблюдений $y$ и регрессоры $x_1, x_2, x_3, \dots$. Наблюдения многочисленны и независимы. Один компьютер не тянет.

Вопрос: можно ли разбить эти наблюдения на группы, найти коэффициенты регрессии внутри каждой группы и по ним восстановить коэффициенты регрессии для всей выборки? Спасибо!

 
 
 
 
Сообщение30.01.2009, 17:37 
Аватара пользователя
Можно, но с некоторой погрешностью. Вероятно, когда не было компьютеров, так поступали часто. Вопрос об оценке погрешности рассматривается в учебной литературе по мат. статистике ( по-моему у Кендала - Стюарта).

 
 
 
 
Сообщение02.02.2009, 12:53 
Аватара пользователя
Если точнее, то в статистике исследуется вопрос о группировке данных. Т.е. несколько рядом стоящих наблюдений объединяются в одно, и рассматривается к каким ошибкам это приведёт. Но если это Вас не устроит, то можно попробовать разбить регрессионную матрицу на блоки и использовать алгоритмы поблочного умножения матриц - это если главная трудность - умножить регрессионну матрицу на сопряжённую к себе.

 
 
 
 
Сообщение02.02.2009, 14:31 
Аватара пользователя
Спасибо!

Проблема не столько в перемножении матриц, сколько в симуляции, которая будет проходить на разных компьютерах в разное время. Каждый рабочий компьютер в кластере (worker) симулирует миллион путей (больше не в состоянии), вычисляет коэффициенты регрессии, и передаёт их главному компьютеру (head node). После того как такое случилось скажем 100 раз, окончательные коэффициенты регрессии высчитываются, и используются в дальнейшей работе.

Ни один компьютер не тянет 100 миллионов путей, так же как и в кластере нет 100 компьютеров.

У Кендалла, Стюарта не нашёл, наверное потому что не знаю даже, что и искать :? Не подскажите как эта вещь могла бы называться по-русски или по-английски?

 
 
 
 
Сообщение02.02.2009, 14:58 
Аватара пользователя
Не знаю, что Вам ответить. Попробуйте поиск в сети по ключевым словам "Solving Large Linear Regression Problems". Слышал такой термин - группировка данных. Если Вы будете просто усреднять решения, полученные с разных компьютеров, то получите погрешность. Но насколько она будет существенна, то это Вам виднее.

Добавлено спустя 6 минут 35 секунд:

Если все компьютеры решают одну и ту же задачу, то можно просто усреднять.

 
 
 [ Сообщений: 5 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group