2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.



Начать новую тему Ответить на тему
 
 Параллельная линейная регрессия
Сообщение24.01.2009, 14:17 
Экс-модератор
Аватара пользователя


11/07/08
1169
Frankfurt
Есть множество наблюдений $y$ и регрессоры $x_1, x_2, x_3, \dots$. Наблюдения многочисленны и независимы. Один компьютер не тянет.

Вопрос: можно ли разбить эти наблюдения на группы, найти коэффициенты регрессии внутри каждой группы и по ним восстановить коэффициенты регрессии для всей выборки? Спасибо!

 Профиль  
                  
 
 
Сообщение30.01.2009, 17:37 
Заслуженный участник
Аватара пользователя


30/01/09
7068
Можно, но с некоторой погрешностью. Вероятно, когда не было компьютеров, так поступали часто. Вопрос об оценке погрешности рассматривается в учебной литературе по мат. статистике ( по-моему у Кендала - Стюарта).

 Профиль  
                  
 
 
Сообщение02.02.2009, 12:53 
Заслуженный участник
Аватара пользователя


30/01/09
7068
Если точнее, то в статистике исследуется вопрос о группировке данных. Т.е. несколько рядом стоящих наблюдений объединяются в одно, и рассматривается к каким ошибкам это приведёт. Но если это Вас не устроит, то можно попробовать разбить регрессионную матрицу на блоки и использовать алгоритмы поблочного умножения матриц - это если главная трудность - умножить регрессионну матрицу на сопряжённую к себе.

 Профиль  
                  
 
 
Сообщение02.02.2009, 14:31 
Экс-модератор
Аватара пользователя


11/07/08
1169
Frankfurt
Спасибо!

Проблема не столько в перемножении матриц, сколько в симуляции, которая будет проходить на разных компьютерах в разное время. Каждый рабочий компьютер в кластере (worker) симулирует миллион путей (больше не в состоянии), вычисляет коэффициенты регрессии, и передаёт их главному компьютеру (head node). После того как такое случилось скажем 100 раз, окончательные коэффициенты регрессии высчитываются, и используются в дальнейшей работе.

Ни один компьютер не тянет 100 миллионов путей, так же как и в кластере нет 100 компьютеров.

У Кендалла, Стюарта не нашёл, наверное потому что не знаю даже, что и искать :? Не подскажите как эта вещь могла бы называться по-русски или по-английски?

 Профиль  
                  
 
 
Сообщение02.02.2009, 14:58 
Заслуженный участник
Аватара пользователя


30/01/09
7068
Не знаю, что Вам ответить. Попробуйте поиск в сети по ключевым словам "Solving Large Linear Regression Problems". Слышал такой термин - группировка данных. Если Вы будете просто усреднять решения, полученные с разных компьютеров, то получите погрешность. Но насколько она будет существенна, то это Вам виднее.

Добавлено спустя 6 минут 35 секунд:

Если все компьютеры решают одну и ту же задачу, то можно просто усреднять.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 5 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group