В общем, изложу своё ИМХО.
1. Модель должна быть максимально обоснована содержательно. Подгоночные модели могут быть полезны, если лучше не выходит. Скажем, оценивай я ОО и располагай данными - для начала попытался бы учесть то, что есть разные механизмы энергопотребления. И если потребление мозгом (и некоторыми иными структурами) не зависит от массы и роста, терморегуляция пропорциональна площади поверхности (массе в степени 2/3 или каким конструкциям масса-рост), а есть ещё пропорциональное общей массе потребление - искал бы в виде суммы трёх слагаемых (а знал бы больше - большего числа). При этом каждое слагаемое было бы достаточно свободно в настройке (скажем, показатель во втором не обязан быть 0.666667, а может плавать, отражая некоторые изменения пропорций с массой). Однако такая модель может оказаться слишком сложной для доступных методов оценивания и/или для наличного объёма выборки. И придётся упрощать - но такое упрощение является жертвой и надо понимать, чем жертвуем.
2. Простое увеличение выборки может вовсе не улучшить число обусловленности матрицы, хотя оценка дисперсии этим уточняется. И при таком увеличении могут остаться "парадоксальные" коэффициенты, скажем, с противоречащим интуиции знаком. Это может быть как продуктом игры случайностей при плохо обусловленной матрице регрессоров, так и тем, что "неправильный" коэффициент это поправка на гиперучёт эффекта другого коэффициента. Удаление "нехорошего" регрессора это некая ампутация. Калечащая операция. Возможно, лучше "таблеточками", скажем, ридж-регрессией, уменьшающей значения коэффициентов и при этом они становятся реалистичнее. Увы, формального инструмента для выбора ридж-параметра я не знаю.
3. Искусственное задание соотношений коэффициентов реализовать очень просто, способ я изложил в самом начале. Переход от нескольких регрессоров к их линейной комбинации с заданными коэффициентами и затем "распаковка" коэффициента при комбинации в коэффициенты при исходных регрессорах. Но это значит становиться пленником собственных предрассудков. Мы теряем возможность проверить, насколько коэффициенты разумны. Это скорее способ обмануть себя и заказчика, чем получить правильный ответ. Иногда приходится халтурить и оправдывать себя в этом - но если можно, лучше работать по-честному.
4. Проверка модели, помимо разбивки выборки на обучающую и контрольную, может делаться и "скользящим экзаменом", когда по
точкам строится модель, проверяемая по оставшейся, и каждая точка выборки по очереди предстаёт "проверочной". Трудоёмкость такого способа не столь существенна при доступных вычресурсах, а используя тождество Ледерманна (у него много имён)
позволяющее на каждом шаге экзамена не обращать матрицу заново, а корректировать за
шагов.