Мифы об искусственных нейронных сетях и мозге

Mihaylo · 19.04.2024, 06:53

Я своего рода ML-researcher-любитель. Тыкаюсь в эти алгоритмы, обратное распространение ошибок, логлоссы... Ставлю перед собой немыслимые исследовательские задачи, гоняю данные туда-сюда, убеждаюсь, что это не работает и т.д.

Нейронные сети - это чистый лист бумаги, на который переписываются обучающие данные в сжатом виде. Нейронные сети - это слепок обучающих данных. Вся сложность гигабайт обучающих данных перекладывается в нейросетку.

И вот миф №1:
Нейронные сети сложны, никто не понимает, как они работают.

Не следует распространять свое незнание на других. Если вы не знаете, как работают нейронки, то это еще ничего не значит.
У нейронных сетей имеется геометрическая и логическая интерпретация. Эти интерпретации может понять студент первого курса любого технического ВУЗа.
1. В геометрической интерпретации появляется понятие разделяющей гиперплоскости, именно уравнение гиперплоскости представляет классический нейрон, а разделяющей она становится благодаря нелинейной функции активации, которая напоминает по форме функцию sign().
2. В логической интерпретации нейрон рассматривают как логический элемент OR и AND. На вход нейрона подают сигналы логических уровней 0 и 1. Веса синапсов должны быть примерно одинаковы, для OR веса побольше, для AND поменьше. У OR-нейрона веса большие, поэтому от любого из синапсов с сильным сигналом 1 такой нейрон возбуждается. У AND-нейрона веса малые и требуется подать лог.1 на все синапсы, чтобы нейрон возбудился. Функция NOT имитируется изменением знака веса. Если вес отрицательный, а на синапсе логическая единица, то такой сигнал тормозит нейрон.
3. Есть еще фильтр-интерпретация для входных слоев нейронных сетей, которые выполняют роль рецепторного слоя сетчатки глаза. Это типичный подход к анализу изображений в ML. Изображение бьётся на пиксели. Каждый нейрон входного слоя имеет столько же синапсов, сколько и пикселей. То есть нейрон "видит" все пиксели. Но часть пикселей заглушаются весом синапса 0, часть пикселей усиливаются максимально весом 1 и еще есть антиусиление при весе -1. (На самом деле веса могут занимать промежуточные значения, например, 0,5 или -0,75, просто для таких весов интерпретация принимает вероятностный характер, думаю с этим у вас не возникнет проблем, если поймёте основные три характерные точки.)
Нейрон возбуждается, если на его "весовом фильтре" в максимальном количестве синапсов происходят два вида совпадения: логическая единица попадает на синапс с весом +1, логические нули попадают на синапсы с весами -1. Там, где вес равен 0, нейрон "слепой" (то есть данные в этом пикселе для нейрона незначимы, мешающий случайный хаос).
Таким образом нейрон способен возбуждаться от частей изображений, которые повторяют некоторую картинку в фильтре нейрона. Кстати, при решении практических задач эти фильтры можно визуализировать. Вы часто встречались с этими визуализациями.

4. Итого, мы имеем три вида интерпретации: геометрическая и фильтр-интерпретация работают для входных слоев, а логическая - для всех последующих. Еще следует понимать, как они работают в совокупности. Например, студенты изучают XOR-задачу, которая решается двухслойной (точнее трехслойной) нейронкой. Первый слой "геометрический", координаты точек переводятся, так сказать, в логический язык. А второй слой доводит работу до логического конца, ибо XOR-точки неразделяемы одной гиперплоскостью.
Аналогично и с фильтр-интерпретацией: входные нейроны видят разные детали на изображении, а скрытые логические слои делают соответствующие выводы. Аля "усы есть, хвост есть и когти есть, значит это кошка".

Djong · 19.04.2024, 09:35

Mihaylo в сообщении #1636852 писал(а):

Нейронные сети - это чистый лист бумаги, на который переписываются обучающие данные в сжатом виде. Нейронные сети - это слепок обучающих данных. Вся сложность гигабайт обучающих данных перекладывается в нейросетку.

Современные нейросети (GPT-4, Gemini Ultra) осуществляют не сжатие, а раздувание обучающих данных. Они имеют объём в байтах сравнимый с объёмом обучающих данных а может и больше.

Mihaylo · 19.04.2024, 13:54

Это такой способ уничижения результатов?)))
Ну забирайте себе тонны текста и ищите знания сами.

На самом деле я говорил не о сжатии в чистом виде, а об обобщении (generalization).

Kernels · 20.04.2024, 01:42

Mihaylo в сообщении #1636877 писал(а):

Это такой способ уничижения результатов?)))
Ну забирайте себе тонны текста и ищите знания сами.

На самом деле я говорил не о сжатии в чистом виде, а об обобщении (generalization).

Не, я думаю, что человек просто констатирует факт. С долей критики, так как чудовищный размер нейросетей не дает запустить ИИ на ПК. Но если это двигает прогресс к сильному ИИ - почему бы и нет.

Mihaylo · 20.04.2024, 04:45

Kernels
Так его забанили за антипрививочнические мысли.

Нейросеть не запоминает, а обобщает данные. На самом деле эти два процесса похожи, просто обобщение - это сжатие (запоминание) с потерями.
GPT-3 по оценкам специалистов занимает 750+ гигабайт, а обучался на 570+ гигабайт текста. Почему такое "раздувание", если было произведено "сжатие с потерями"? Еврейский ответ: а ничего, что этот алгоритм должен не просто находить в памяти тексты (поисковик), но и умно разговаривать, сочетать полученные знания, генерируя тексты, которых не было в обучающих датасетах? Раздувание происходит вследствие своего рода индексации данных, для быстрого линейного "умного поиска". Я бы себе это так объяснял.

Mihaylo · 21.04.2024, 11:19

Продолжаю список мифов, сейчас их станет два. Второй миф наиболее распространенный и мощный, я неустанно отмечаю это во всех темах по ИИ.

Миф №1. Нейронные сети сложны, никто не понимает, как они работают.

Миф №2. Нейронные сети (биологические и иногда, говорят, про искусственные) - это универсальный решатель любых задач.

Это, конечно же, ложь. То, что я буду здесь говорить, порвет пуканы апологетов сильного интеллекта и AGI. Смотрите какая ситуация: AGI не существует в природе, так как остаётся лишь мечтой гуманитариев и философов. Сильный же интеллект существует (это человеческий), но он не такой уж сильный, как кажется.
А все потому, что интеллект в любом его виде и проявлении не может быть универсальным решателем любой задачи.

У реальных задач:
1. Противоречия в исходных данных
2. Исходные данные неполны

Решение задачи - это прогноз (вычисление).
Есть такая абсолютно не решаемая задача - прогнозирование белого шума. Эту задачу не может решить любой интеллект, даже AGI. Делайте выводы, любители идеальных сущностей.

Интеллект - это решатель задач с неполным набором исходных данных, но при этом этих данных должно быть много, допускается наличие посторонних данных (шумов) и, самое главное, к решению задачи должны предъявляться пониженные требования.

Когда вы делаете контрольную работу, сдаете экзамен, то получаете оценку по пятибалльной шкале - это и есть пониженные требования к качеству работы или ответов. Некоторые довольствуются тройкой. И даже при сдаче зачётов (двухбальная шкала "сдано/не сдано") имеются неформальные ослабления к качеству ответов или других результатов.

Что касается математических и логических задач, которые, по мнению обывателей, являются прерогативой интеллекта, то это не типовые задачи для интеллекта, так как предъявлены довольно жёсткие к качеству ответа. Но между тем, такие задачи успешно решаются. Но обратите внимание, что такие задачи решаются далеко не каждым индивидом. Не нужно обобщать на все человечество. Это всё-таки нетипичные задачи, доступные только избранным "красноглазикам".

sergey zhukov · 21.04.2024, 20:52

На мой обывательский взгляд нейросеть - это способ связать в исходных данных все со всем (некоторая функция самого общего вида), а потом "двигать" эти связи и смотреть на выходной результат. Важно, чтобы изначально все связи были хоть немного "живые". Тогда, если они значимы, они усилятся. А незначимые можно и выбросить.

Жесткие алгоритмы, написанные человеком, проигрывают в том, что в них заранее определено, что с чем связать и как, на основании какого-то человеческого опыта. Но если у нас много ресурсов, то можно и "топологию" нашего конечного алгоритма сделать одной из неизвестных переменных. Здесь, можно сказать, это выясняется по ходу дела.

Примерно как в задачах топологической оптимизации. Раньше считали, какой толщины балку нужно взять, чтоб не сломалась, а теперь считают, как вообще должна выглядеть деталь (геометрия которой неизвестна), которая будет отвечать заданным параметрам по прочности, жесткости, габаритам и весу.

gevaraweb · 23.04.2024, 09:27

sergey zhukov в сообщении #1637059 писал(а):

Есть такая абсолютно не решаемая задача - прогнозирование белого шума.

Дык, означает ли это, что эта задача решаема другими методами?
Если нет, тогда утверждение сводится к:
Нейронные сети не могут решить задачи, которые в принципе невозможно решить.
Тогда ценность мифа №2 равна нулю?

Mihaylo в сообщении #1636852 писал(а):

4. Итого, мы имеем три вида интерпретации

Я как математик дал бы следующую интертрепацию (более общую):
В искусственном интеллекте для решения задачи предсказания значения многомерной случайной величины мы вводим множество независимых параметров с весами.

Вот берем и вводим облако независимых параметров. И сводим задачу с n признаками к тысячам и миллионам параметров.
Частный случай такого подхода - это нейронные сети. Они хороши тем, что имеются эффективные способы вычисления весов этих параметров. Но, наверное, есть и другие подходы.

Mihaylo · 23.04.2024, 12:30

gevaraweb в сообщении #1637138 писал(а):

Тогда ценность мифа №2 равна нулю?

Нет, не равна нулю. Некоторые люди верят в сверхспособности. Здесь я могу сделать отсылки к фильмам "Трансцендентность", "Обитель зла", "Терминатор" и др.

sergey zhukov · 23.04.2024, 12:57

Mihaylo
Сверхспособности - это, видимо, когда ИИ не просто пассивно спит и ждет постановки очередной задачи сверху, а сам что-то там себе ставит и выполняет. Не вижу тут ничего невозможного.

Наоборот, есть представление, что ИИ всегда будет таким идеальным слугой, который во всем превосходит своего хозяина, кроме одного - у него нет инициативы. Оставь его в покое - он запросто сто лет просидит без дела, несмотря на все свои замечательные способности. Не думаю, что это какой-то непреодолимый барьер для ИИ.

Rasool · 23.04.2024, 17:36

Mihaylo в сообщении #1636984 писал(а):

Что касается математических и логических задач, которые, по мнению обывателей, являются прерогативой интеллекта, то это не типовые задачи для интеллекта, так как предъявлены довольно жёсткие к качеству ответа. Но между тем, такие задачи успешно решаются. Но обратите внимание, что такие задачи решаются далеко не каждым индивидом. Не нужно обобщать на все человечество. Это всё-таки нетипичные задачи, доступные только избранным "красноглазикам".

Математические и другие интеллектуальные задачи, которые сейчас решаются людьми - специалистами и учеными со специальной подготовкой - со временем достигнут такого уровня сложности, что будут не под силам для решения людьми. Поэтому перед человечеством и стоит задача создания ИИ, который был бы способен решать сверхсложные научные и профессиональные задачи. Сейчас имеющиеся алгоритмы ИИ уже способны обыгрывать людей-спортсменов (гроссмейстеров и т.д.) в интеллектуальные игры - Го, шахматы и т.д. Нужно идти дальше.

Mihaylo · 23.04.2024, 21:03

sergey zhukov в сообщении #1637142 писал(а):

у него нет инициативы

Вот беда-то.
А вам нужен ИИ, который будет искать наидлиннейшие слова во всех предложениях всех текстов, которые только писАлись и произносились? А ведь это лишь одна из миллиарда законных (незапрещенных) целей... И все цели равноценны, что бы вы не думали. Неравноценность может привнести только хозяин... Понимаете?

Ну представьте себе, Алиса умеет разговаривать. Ну пускай она сама решает, что говорить, пускай она говорит в одиночестве, пускай она что угодно говорит хозяину, что сама захочет. Но нужно ли нам ЭТО?

mihaild · 23.04.2024, 22:10

Mihaylo в сообщении #1636984 писал(а):

, к решению задачи должны предъявляться пониженные требования

Пониженные по сравнению с чем?

Mihaylo в сообщении #1637140 писал(а):

Некоторые люди верят в сверхспособности

Это что такое? Вот Юдковский верит в сверхспособности, исходя из этого списка, или нет?

(Оффтоп)

- FTL (faster than light) travel: DEFINITE NO

- Find some hack for going >50 OOM past the amount of computation that naive calculations of available negentropy would suggest is possible within our local volume: PROBABLE NO

- Validly prove in first-order arithmetic that 1 + 1 = 5: DEFINITE NO

- Prove a contradiction from Zermelo-Frankel set theory: PROBABLE NO

- Using current human technology, synthesize a normal virus (meaning it has to reproduce itself inside human cells and is built of conventional bio materials) that infects over 50% of the world population within a month: YES

(note, this is not meant as an argument, this is meant as a concrete counterexample to people who claim 'lol doomers think AI can do anything just because its smart' showing that I rather have some particular model of what I roughly wildly guess to be a superintelligence's capability level)

- Using current human technology, synthesize a normal virus that infects 90% of Earth within an hour: NO

- Write a secure operating system on the first try, zero errors, no debugging phase, assuming away Meltdown-style hardware vulnerabilities in the chips: DEFINITE YES

- Write a secure operating system for actual modern hardware, on the first pass: YES

- Train an AI system with capability at least equivalent to GPT-4, from the same dataset GPT-4 used, starting from at most 50K of Python code, using 1000x less compute than was used to train GPT-4: YES

- Starting from current human tech, bootstrap to nanotechnology in a week: YES

sergey zhukov · 23.04.2024, 22:22

Mihaylo
Да я просто хотел уточнить, что можно понимать под сверхспособностями. А то не очень ясно, о чем речь.

Что нужно нам - это отдельный вопрос.

Mihaylo · 24.04.2024, 04:17

mihaild в сообщении #1637176 писал(а):

Пониженные по сравнению с чем?

Пониженные по сравнению с идеальным случаем, когда у задачи принимается один или несколько вариантов ответа. Типично это класс известных со школы математических и логических задач. И ещё ниже. Так как задачи не определены, то речь идёт о некоем пороге, который может быть очень даже низким.

mihaild в сообщении #1637176 писал(а):

Вот Юдковский верит в сверхспособности, исходя из этого списка, или нет?

Ну да, хорошее приближение, только слишком конкретное. Надо поразмытее. Некоторые верят в реальность AGI, который в 2070 году докажет 90% математических теорем в течение года.

-- 24.04.2024, 04:24 --

sergey zhukov в сообщении #1637179 писал(а):

Что нужно нам - это отдельный вопрос.

Это не отдельный вопрос, а самый главный в нашей жизни.

Цитата:

— Сорок два! — взвизгнул Лунккуоол. — И это всё, что ты можешь сказать после семи с половиной миллионов лет работы?

— Я всё очень тщательно проверил, — сказал компьютер, — и со всей определённостью заявляю, что это и есть ответ. Мне кажется, если уж быть с вами абсолютно честным, то всё дело в том, что вы сами не знали, в чём вопрос.

— Но это же великий вопрос! Окончательный вопрос жизни, Вселенной и всего такого! — почти завыл Лунккуоол.

— Да, — сказал компьютер голосом страдальца, просвещающего круглого дурака. — И что же это за вопрос?

-- 24.04.2024, 04:27 --

inteligent в сообщении #1637181 писал(а):

Реальный белый шум от физического процесса спрогнозирует демон Лапласа то есть ASI.

В 2030-м году?)

Научный форум dxdy

Мифы об искусственных нейронных сетях и мозге