В качестве простейшего объяснения - матрица
неполного ранга или близка к матрице неполного ранга, производные, они часто оказываются сильно скоррелированными (просто по формуле производной сложной функции - общие сомножители появляются), "мультиколлинеарность", как это зовут применительно к регрессии. Матрица
при обнулении альфы получается вырожденной или близкой к вырожденной. В силу конечной точности вычислений при попытке ея обращения
(Оффтоп)
в истинную веру
вместо честного деления на ноль и "авоста" получаем игру ошибок округления (и рост элементов обращённой до бесконечности, но при умножении на
большие сомножители гасятся маленькими, и результат выглядит правдоподобным, но никакого отношения к оптимизации уже не имеет, это именно шуточки округления. Прибавка единичной матрицы это предотвращает. Здесь хорошо проясняет сделать сингулярное разложение для
, сократить и увидеть, что происходит с сингулярными числами в решении и как работает
(Оффтоп)
спецподразделение
альфа.