DicsonУ вас несколько спорных утверждений. Пойдем в порядке возрастания их сложности:
1) По поему опыту даже нынешние чат-боты (которые, если верить OpenAI, через год нам покажутся смехотворно глупыми) умеют вести вполне осмысленные диалоги. Поэтому я почти не сомневаюсь, что в роли оператора службы поддержки LLM со временем сработает не хуже людей. Которые, опять же по моему опыту, работают по методичке и часто выключают внимание. Мой типичный диалог с сотрудником банка:
- Я понял, спасибо, у меня больше нет вопросов.
- У вас еще остались вопросы?
Но независимо от того как могут тупить люди, в контексте нынешних достижений я не вижу причин считать работу оператора кол-центра слишком сложной для LLM. Особенно с поправкой на голосовой интерфейс с эмоциональных интеллектом, продемонстрированный OpenAI на презентации GPT-4o. Не без косяков, но ведь это только начало...
2) По поводу того, что "
человек, может быть, знает меньше текстов, чем чат-бот, но зато смысл тех, которые знает, понимает точнее. В результате в каждой области знания у нас есть свои специалисты, которые в этой области разбираются лучше любого чат-бота". Уже сейчас LLM в некоторых областях демонстрируют компетенцию лучше среднего специалиста в этой области - например, в медицинской диагностике и рекомендациях по простудным заболеваниям. Поэтому определенно не "
в каждой области знания у нас есть свои специалисты, которые в этой области разбираются лучше любого чат-бота". Но сможет ли ИИ выйти на уровень человеческой компетенции в любой области знаний? Вопрос, который упирается в очень интересную затронутую вами тему - понимание смысла. Вы пишите:
в основании слов у нас находится массив более низкоуровневого опыта (воспринимаемый нами психически, как весь остальной контекст ощущений и эмоций), через который слова связаны с сигналами рецепторов и, таким образом, через который они приобретают смысл по отношению к условиям.
Это всё так, но в моем сугубо дилетантском представлении непосредственно понимание у нас выражается, главным образом, следующим образом:
1) мысленное представление увиденного/услышанного/прочитанного (визуальное, слуховое, тактильное, эмоциональное и т.д.), а также
2) наложение увиденного/услышанного/прочитанного на усвоенные и закрепленные нашим личным опытом закономерности.
Когда вы говорите
"Гло́кая ку́здра ште́ко будлану́ла бо́кра и курдя́чит бокрёнка", то я ничего не понимаю. Но если вы скажете
"Большая собака больно укусила кота и лижет котенка", то я смогу мысленно представить эту сцену и связать её со своим ощущениями большого и маленького, кусания и лизания, и т.д. Но ничего не мешает реализовать хотя бы часть этого понимания, на визуальном уровне, и в ИИ - вы же знаете про мультимодальные модели, способны анализировать визуальную информацию. Вы можете сказать, что все равно будет недоставать физических и эмоциональных ощущений - но так ли они важны?
Во-первых, сами люди могут быть лишены этих ощущений - слепоглухонемой от рождения человек все равно разумен, как и человек, лишенный эмпатии или чувства боли. И наоборот: физически полноценные маугли, выросшие вне социума, ведут себя как животные - людьми их делает прежде всего язык.
Во-вторых, мы можем постигать какие-то эмоции и чувства через закономерности, даже не имея личного опыта. Множество людей никогда не испытывало любви - но понимать что это такое им помогают не порхающие в животе бабочки, а извлеченные из чужого (например, литературного) опыта закономерности: кто, когда и при каких обстоятельствах влюбляется, как себя при этом ведет, как реагирует на разлуку и т.д. И поэтому не знающий любви (тюрьмы, войны), но начитанный человек знает про неё намного больше человека, который испытал это только на личном опыте. Да, влюбленный/воевавший/сидевший в тюрьме человек условных бабочек или тараканов в животе ощущал по-настоящему - зато начитанный знает как себя при этом ведет среднестатистическая жертва этих обстоятельств. Он вряд ли сможет применить эти знания (война или тюрьма) на практике (поскольку у него не выработаны соответствующие реакции, отсутствует соответствующая закалка) - но он знает всё, что можно передать словами. Особенно с точки зрения понятия "смысл" - богатство осмысления войны или тюрьмы определяется текстом, а не ощущением условных тараканов в животе.
В-третьих, обязательно ли сводить требуемые для осмысления закономерности к закономерностям именно реальных процессов? Может быть осмысление возможно через статистические текстовые закономерности обучающего дата-сета, при помощи которых LLM предсказывает каждое следующее слово в диалоге с пользователем? Я задавал этот вопрос в соседней
теме. Несколько лет назад над таким способом осмысления можно было посмеяться - вот как обученная на Википедии языковая модель 2011 года продолжила фразу "смысл жизни" (ниже - автоперевод с английского):
Цитата:
Смысл жизни — это традиция древнего человеческого воспроизводства: это менее благоприятно для хорошего мальчика, когда его нужно убрать. В шоу единогласно всплыла договоренность. Дикие пастбища с постоянными уличными лесами были включены к 15 веку до н.э. В 1996 году первичный рапфорд подвергся усилию, что резервирование условий, записанных в еврейские города, спящих для включения Евразии, которая активирует население. Мария Националь, Келли, Зедлат-Дукасто, Флорендон, Пту считает. Чтобы адаптироваться в большинстве частей Северной Америки, динамичная фея Дэн, пожалуйста, верит, что свобода слова во многом связана с
Сравните с тем, как нынешние LLM ведут диалоги, решают задачи, программируют, объясняют смысл поговорок или анекдотов и т.д. Нынешний прогресс от модели, выдавшей в 2011 эту абракадабру про смысл жизни, меня удивляет даже больше, чем удивил бы прогресс от нынешних LLM к AGI.
Вопрос о том, является ли пониманием задействование статистических текстовых закономерностей, я задаю безотносительно того факта, что в рамках мультимодальных систем эти закономерности дополняются закономерностями нашего физического мира, почерпнутыми из YouTube и прочих носителей видео-информации. С учетом последнего, ваше утверждение, что
"ИИ всегда будет не более чем помощником, способным выполнять простую интеллектуальную работу" мне представляется особенно спорным. В том числе аргументация:
Сложность нас самих — это принципиальный предел сложности любого создаваемого нами объекта или знания, к которому можно бесконечно приближаться, но на практике всегда оставаясь далеко от него.
По этой логике Ньютон не мог быть умнее своих преподавателей физики в Кембридже. Да, он "всего лишь карлик на плечах гигантов" - но этими гигантами он называл то, что сейчас выступает в качестве обучающего текстового дата-сета. Тогда что мешает большой языковой модели, которая проанализировала всю доступную текстовую информацию (в том числе десятки миллионов научных публикаций), подобно Ньютону выйти за пределы сложности своих учителей?