Я никогда не знал этот метод, я его 1-й раз в жизни прочел здесь.
И я все понял.
Здесь есть ответы на все Ваши вопросы.
Формально метод умещается в 1 абзац, а откуда что берется - расписано подробно с самого начала
Почему именно так, почему не по степеням тройки или другого числа?
Потому что мы хотим извлекать корень - корень степени 2.
И где об этом можно почитать, где попроще написано, с примерами? 
Не знаю такой книжки, м.б. в Василенко, но, ИМХО, приведенных Вами ссылок для понимания вполне достаточно.
 
, тогда: 

,
 Это только в случае 

. Для 

 нужно привлекать некоторый квадратичный невычет.
и далее рассматриваем возможные варианты разложения 

 по различным модулям, чтобы сократить знаменатель?
Ну не по различным, а только по степеням двойки 

. Причем всякий раз разбираются случаи 

, а случай 

 всякий раз разбивается на 2 подслучая: 

 и 

.
идея построения этих методов вытекает из критерия Эйлера: 
критерий Эйлера в рассуждениях используется. "Вытекает" - я бы так не сказал.
Просто прочтите целиком, медленно.
Числа Мерсенна не при чем.