Параллельная линейная регрессия

bubu gaga · 24.01.2009, 14:17

Есть множество наблюдений $y$ и регрессоры $x_1, x_2, x_3, \dots$ . Наблюдения многочисленны и независимы. Один компьютер не тянет.

Вопрос: можно ли разбить эти наблюдения на группы, найти коэффициенты регрессии внутри каждой группы и по ним восстановить коэффициенты регрессии для всей выборки? Спасибо!

мат-ламер · 30.01.2009, 17:37

Можно, но с некоторой погрешностью. Вероятно, когда не было компьютеров, так поступали часто. Вопрос об оценке погрешности рассматривается в учебной литературе по мат. статистике ( по-моему у Кендала - Стюарта).

мат-ламер · 02.02.2009, 12:53

Если точнее, то в статистике исследуется вопрос о группировке данных. Т.е. несколько рядом стоящих наблюдений объединяются в одно, и рассматривается к каким ошибкам это приведёт. Но если это Вас не устроит, то можно попробовать разбить регрессионную матрицу на блоки и использовать алгоритмы поблочного умножения матриц - это если главная трудность - умножить регрессионну матрицу на сопряжённую к себе.

bubu gaga · 02.02.2009, 14:31

Спасибо!

Проблема не столько в перемножении матриц, сколько в симуляции, которая будет проходить на разных компьютерах в разное время. Каждый рабочий компьютер в кластере (worker) симулирует миллион путей (больше не в состоянии), вычисляет коэффициенты регрессии, и передаёт их главному компьютеру (head node). После того как такое случилось скажем 100 раз, окончательные коэффициенты регрессии высчитываются, и используются в дальнейшей работе.

Ни один компьютер не тянет 100 миллионов путей, так же как и в кластере нет 100 компьютеров.

У Кендалла, Стюарта не нашёл, наверное потому что не знаю даже, что и искать

Не подскажите как эта вещь могла бы называться по-русски или по-английски?

мат-ламер · 02.02.2009, 14:58

Не знаю, что Вам ответить. Попробуйте поиск в сети по ключевым словам "Solving Large Linear Regression Problems". Слышал такой термин - группировка данных. Если Вы будете просто усреднять решения, полученные с разных компьютеров, то получите погрешность. Но насколько она будет существенна, то это Вам виднее.

Добавлено спустя 6 минут 35 секунд:

Если все компьютеры решают одну и ту же задачу, то можно просто усреднять.

Научный форум dxdy

Параллельная линейная регрессия