Введение весов в МНК это способ "малой кровью" справиться с нарушений условий применения метода.
Я бы сказал, что наоборот, это соблюдение условий применимости метода.
МНК не выводится из ММП, МНК сам по себе.
Само по себе ничего не бывает. Если под МНК не лежало ничего фундаментально его обосновывающего хотя бы в каких-нибудь случаях, то ему бы нашли замену.
Для линейных и гауссовых проблем они эквивалентны для определения коэффициентов.
МНК можно успешно и обоснованно применять и случае нелинейных проблем. Главное, чтобы зависимые значения имели гауссово распределение. В случае негауссового распределения будет уже не Метод Наименьших Квадратов, а какой-нибудь Метод Наименьших Логарифмов, но суть останется та же: нужно минимизировать сумму функций невязки, которая будет не квадратом разности, а чем-нибудь по-интересней.
Такого не может быть в линейных задачах.
Разумеется может быть. Возьмите три экспериментальные точки, для которых задана прямоугольная функция распределения, и поместите их так, чтобы от "ближайшей" к ним прямой они отстояли дальше, чем ширина этого распределения. Всё. Какие бы параметры прямой мы не взяли, значение функции правдоподобия будет равно нулю. Или я, по вашему, не правильно понимаю суть функции правдоподобия?