Все эти вещи имеют вполне конкретное назначение, а именно - применяются в оптимизации по методу максимального правдоподобия
по этому методу оптимальными считаются параметры, при которых функция правдоподобия принимает максимальное значение
чтобы найти этот максимум - функция правдоподобия дифференцируется и решается система уравнений

если эта система решается численно, то согласно методу Ньютона требуется вычислить матрицу вторых производных (матрица Гёссе)

алгоритм уточнения параметров такой:
![$ V[k+1]=V[k]-H^{-1}grad(L(x|a_1,a_2,a_3,...a_n))$ $ V[k+1]=V[k]-H^{-1}grad(L(x|a_1,a_2,a_3,...a_n))$](https://dxdy-01.korotkov.co.uk/f/4/5/2/452a476b17bc607da4ab6d7789d43c0f82.png)
,
где

- вектор уточняемых параметров
для логарифмической функции правдоподобия

в этом и есть её основное удобство, позволяющее ограничится однократным дифференцированием
информационная матрица Фишера - это математическое ожидание второй производной, или , как чаще встречается - квадрата производной, логарифмической функции правдоподобия

,
т.е. она может использоваться в алгоритме оптимизации вместо мгновенного значения матрицы Гёссе, но главная её роль состоит в том, что по ней определяется верхняя граница дисперсии полученных оценок (согласно неравенству Крамера - Рао). При этом рассматриваются только её диагональные элементы.
Что касается информации Шеннона - то у этого показателя совсем другое предназначение, хотя для нормального распределения эти показатели насколько я помню совпадают.