Почитайте хотя бы википедию про orthogonality thesis и instrumental convergence.
Всё-таки заставили меня добраться до Бострома. :) Ладно, посмотрю, что он там пишет про них.
Пока что, после крайне беглого предварительного осмотра, могу сказать следующее.
1. Тезис ортогональности.
Безусловно, уровень интеллекта и его цели могут никак не коррелировать между собой. Но вот используемые методы и уровень интеллекта обычно всё-таки взаимосвязаны! (Умный скорее всего не станет забивать гвоздь камнем, когда рядом есть молоток.)
И вот тут сверхразумному ИИ обычно приписывают крайне тупые методы достижения целей. Сделать это можно за счёт очень простого фокуса: уничтожение человечества (весьма тупой метод достижения для подавляющего большинства возможных целей) провозгласить "промежуточной целью". Ну а цели у ИИ как бы ортогональны его интеллекту — так что, дескать, почему бы и нет?
Ловкость рук тут происходит конкретно на этапе ничем не мотивированного превращения метода (вполне себе коррелирующего с уровнем интеллекта) в ортогональную уровню интеллекта цель. Совершенно непонятно, с чего бы ИИ избирать именно такой метод. Видимо, просто потому, что он ИИ, так что обязан так или иначе убить всех человеков — ведь в фильмах же показывали, как терминаторы всех мочат.
Логика тут примерно такая же, как в утверждении, что все здоровые мужчины — потенциальные насильники. Возможность-то у них ведь есть? Так же и тут: у машины имеется сверхразум — значит, почти наверняка пойдёт всех убивать. Просто потому что может. Ага.
2. Инструментальная конвергенция.
Тут тоже за умными словами прячется натягивание совы на глобус. Совершенно не ясно, с какой стати человеческие представления об инструментальных причинах должны совпадать с представлениями ИИ. Искусственный сверхразум скорее всего может увидеть гораздо больше способов достижения нужного результата.
Допустим, люди видят

примерно равнозначных способов для сверх-ИИ прийти к его цели, и один из возможных способов — уничтожение человечества, поэтому люди оценивают вероятность своего уничтожения как

.
Однако сам сверх-ИИ без напряга, просто навскидку может видеть

возможных альтернатив уничтожению, до большинства из которых люди никогда бы не додумались. Поэтому вероятность, что при прочих равных он выберет именно уничтожение человечества, на самом деле составляет

. И чем умнее ИИ, тем больше он видит всевозможных альтернатив и тем ниже эта вероятность.
Безусловно, по умолчанию приписывать ИИ лучшие человеческие черты и ожидать от него проявлений совести, сочувствия и гуманизма было бы весьма наивно. Это действительно было бы неоправданное сужение пространства всевозможных вариантов сильного ИИ до точки, соответствующей "общечеловеческим ценностям".
Однако и ожидать, что компьютерный сверхразум непременно решит уничтожить человечество — это тоже стягивание безграничного пространства возможных искусственных интеллектов, только уже в другую точку — где полный жесткач и разумные машины непременно решают всех убить.
И то, и другое — лишь капли в безграничном океане возможностей.
Но параноики находят для себя непременно самые страшные варианты и пугают себя ими до одури.