(Оффтоп)
Это частная драка, или я могу присоединиться?
Я бы начал с того,
why МНК.
Построили мы красивую модель, объясняющую интересную для нас величину y через какие-то известные х-ы. Модель задана с точностью до набора параметров a, который мы желаем оценить по доступным нам данным.

Но вот беда - ни при каких a точные значения y не получаются. Мы догадываемся, что дело в погрешностях - измерения ли значений y, влияния неучтённых факторов (из коих одни вовсе не наблюдаемы, а другие, пусть и могут быть наблюдены, но малозначительны, и их влияние существенно потому лишь, что их очень много), или неточности спецификации самой модели. Поэтому модель дополняется поправками, с учётом которых наблюдения согласуются с данными

Если это именно ошибки измерения y, то можно несколько упростить

избавившись от возможно нелинейного влияния

, причём упрощение столь существенно, что так поступают даже если невязки

связаны не только и не столько с ошибками измерения y.
(Оффтоп)
Ищем под фонарём, поскольку не под фонарём ничего не видно.
Понятно, что если мы ничем не ограничены в выборе этих невязок, то можем подогнать всё, что угодно под любую модель. Но так как нам нужна не любая, а реальная зависимость, то мы пытаемся обойтись по возможности меньшими поправками. То есть ищем такие параметры a, чтобы вектор невязок

был бы как можно меньше. Однако "меньше" и "больше" применимо к числу, и мы "свёртываем" вектор к одному числу, часто (но не обязательно) норме этого вектора. Выбирая способ "свёртывания"

, можно руководствоваться простыми принципами:
1. Если невязки нулевые - это наилучший возможный результат, то есть

2.

- монотонная функция от абсолютных величин отдельных элементов вектора невязок.
Даже и при этих условиях (и некоторых дополнительных, скажем, чтобы отрицательные и положительные значения невязок влияли бы одинаково - "ошибки в плюс и в минус равно вредны") остаётся выбор - можно брать максимум абсолютных величин элементов вектора, можно сумму абсолютных значений, можно сумму квадратов. Наиболее часто именно сумма квадратов, оттого и называется МНК. Выбор именно квадратов не всегда наилучший. Скажем, если в данных ожидаются грубые ошибки, то сумма абсолютных величин надёжнее. Оптимальны квадраты, если распределение ошибок нормальное, но главная причина популярности МНК скорее в том, что вычисления упрощаются радикально.
Находя минимум через приравненные к нулю производные по

суммы квадратов невязок

, получаем выражение для производных

А если ещё и

есть линейная функция, то нахождение искомых коэффициентов a сводится к решению системы линейных уравнений. Что не только упрощение вычислительной работы, но ещё и гарантия единственности оптимума, в общем случае можем, даже найдя оптимум, оказаться в локальном вместо глобального.
Линейность здесь имеется в виду "по коэффициентам", то есть сами иксы могут быть нелинейными функциями чего-то, это несущественно, важно, чтобы в выражение для y они входили линейно. Модели "истинно линейные" встречаются далеко не всегда, но, с одной стороны, в интересующей нас области может вполне работать линейная аппроксимация, с другой стороны, можно определёнными преобразованиями привести к линейному виду. Так, популярная у экономистов производственная функция Кобба-Дугласа

, (использование произведения в ней отражает тот факт, что при отсутствии как рабочей силы L, так и капитальных затрат K производство P будет нулевым, даже если второй фактор производства в наличии) после логарифмирования оказывается линейной по параметрам "логарифм от L" и "логарифм от K". Линейная аппроксимация используется также и при оценивании существенно нелинейных моделей, например, методом Левенберга-Марквардта.