0. В статье (хотя тут претензия не столько к её авторам, сколько к "Известным специалистам Бейкеру и Грейвс-Моррису") несколько превратно показано преимущество аппроксимации Паде над многочленами. Разложение в ряд Тейлора делается не с целью получить наилучшую аппроксимацию значений функции на отрезке, а чтобы в данной точке аппроксимировать функцию и все её производные. Поэтому на отдалении от этой точки приближение рядом Тейлора всё более и более отстоит от значений функции, однако если, скажем, приближать многочленами Чебышева, точность будет хороша на всём отрезке, и такого эффекта, как на иллюстрирующей преимущество Паде над многочленами картинке, не будет. Аппроксимация отношением полиномов может быть лучше, скажем, тем, что может отражать поведение функции за пределами отрезка аппроксимации (полиномы любят, даже если хорошо подогнаны к данным на отрезке, "гулять" за его пределами, уходя в бесконечность).
1. Используемый метод подгонки сводится к тому, что от выражения
, где f, g - полиномы, переходят к
, при этом коэффициенты числителя и знаменателя можно одновременно умножить на одно и то же число, так что можно выбрать их так, чтобы константа в многочлене g(x) была бы равна 1. Тогда
можно записать в виде
или
, которое является линейным по параметрам и может быть легко оценено. Однако тут может крыться ловушка.
Обычно данные отягощены погрешностью, как ошибкой измерения, так и ошибкой спецификации модели.
и тогда при умножении на g(x) спецификация ошибки изменится: там, где знаменатель велик, погрешности будут приближаться тщательнее, чем там, где мал (а если g(x) в некоторых точках обращается в ноль - соответствующие значения будут вовсе пренебрежены). Такой подход работает, если
, в противном случае надо использовать общие методы нелинейной регрессии, потеряв лёгкость вычислений.
2. Перейдя в линейную (по параметрам, сами слагаемые модели будут одночленами разных степеней и их произведениями на y, в этом смысле модель нелинейна, но линейно зависит от коэффициентов при слагаемых) модель
, можем её оценивать обычным МНК. Это потребует обращения матрицы, что представляло крайне трудоёмкую часть работы в докомпьютерную эру, и даже в раннекомпьютерную, и способствовало развитию итеративных методов, менее расходных по вычислительной мощности (в них вместо обращения, задачи кубической сложности по отношению к размерности матрицы, использовалось многократное умножение матрицы на вектор и сложение матриц, обе квадратичны по сложности). Это преимущество ныне востребовано для очень больших разреженных матриц; для таких размерностей, как у Вас, лично я бы использовал обычное выражение для регрессии
. Есть ещё два основания предпочесть итеративные методы обращению матрицы, но одно из них здесь, полагаю, "не играет", а второе скорее ложно и способствует самообману. Итеративный алгоритм использует выражение для коррекции обратной матрицы при прибавлении к ней матрицы ранга 1, соответствующей добавлению новых строк в матрицу данных. Его можно дополнить коэффициентом, дающим "гиперкоррекцию" в том смысле, что вновь поступившие данные имеют больший вес, чем прежние. Это полезно, если модель в действительности не постоянна, а меняется во времени, так что слишком старые данные стоит забыть, опираясь на более свежие. Так, именно этим образом, по всей вероятности, рассчитывается линейная аппроксимация Вашей речи в Вашем сотовом телефоне, как часть процедуры сжатия сигнала. Поскольку положение губ, языка и другие характеристики речевого аппарата меняются во времени - бессмысленно использовать слишком давние отсчёты звукового сигнала. Однако, если я правильно понял, у Вас для всех наблюдений используется одна и та же модель, и подобное преимущество менее уместно, чем горб верблюда в зоопарке - он хотя бы "приколен". Второе преимущество состоит в том, что такой алгоритм даст Вам ответ, даже если матрица неполного ранга и необратима. Но этот ответ может быть в таком случае попросту бессмысленен, и об этом грустном факте лучше знать, а не довольствоваться тем, что "что-то посчитало".