2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу 1, 2  След.
 
 Обновление базы знаний ИИ
Сообщение04.11.2025, 11:31 
Хотелось бы поднять этот вопрос
vicvolf в сообщении #1708163 писал(а):
wrest в сообщении #1708160 писал(а):
Это сейчас ещё, как я понимаю, ИИ не учится на диалогах с пользователями, если по-шахматному, то не пополняет базу дебютов. Но очевидно, что дальше будет пополнять. И если ИИ с вашей помощью решил задачу, то она окажется у него в базе данных. И даже если не решил, то очень вероятно, что допишут так, что будет решать сам без вас, особенно если эту же задачу задаст кто-то ещё.
Вот здесь мне кажется проблема. Для погружения в общую базу знаний ИИ должен быть уверен в правильности загружаемой информации. Но ИИ не может доверять себе контроль информации. В противном случае любое, кажущееся ему правильным утверждение, он должен заносить в общую базу знаний. В пределах темы вы можете, что-то доказать ИИ, но вне темы он обладает знаниями только общей базы знаний.

 
 
 
 Re: Обновление базы знаний ИИ
Сообщение04.11.2025, 12:31 
Аватара пользователя
vicvolf
ИИ более корректно сравнивать не с одним человеком, а с человечеством.
Может ли один человек доверить себе контроль информации? Наверное нет, он может нагаллюцинировать себе что-нибудь пургаторное и без обратной связи от других людей так и не понять этого (а кто-то и с обратной связью не понимает).
Но может ли человечество доверить себе контроль информации? Наверное может, во всяком случае нам некому больше доверить такой контроль. Разве что тому же ИИ, когда он ещё поумнеет.

Практически проблема решается введением градаций уверенности в тех или иных утверждениях. Такая градация есть и у людей - есть утверждения, которые просто кому-то показались правильными; есть несколько раз проверенные и подтверждённые; а есть составляющие научный консенсус. Думаю, что такая градация в каком-то виде есть и у нынешних версий ИИ; во всяком случае, я видел, как в своих мыслях ChatGPT оценивал достоверность сказанного в какой-то статье, опираясь на количество и качество её цитирований. Отличить публикацию на Пикабу от публикации в Nature ИИ вполне способен. Остаётся и тем утверждениям, которые он сам получает, считает их правильными и хочет занести в базу знаний, присваивать значение степени уверенности в них. И должен быть механизм перепроверки утверждений и пересмотра их степени достоверности, например если в процессе каких-то размышлений из этих утверждений получаются сомнительные выводы или противоречие с другими известными утверждениями.

Когда это будет реализовано и как именно будет устроено в деталях, сказать не берусь, но проблема не кажется принципиально нерешаемой.

 
 
 
 Re: Обновление базы знаний ИИ
Сообщение04.11.2025, 12:35 
Аватара пользователя
Нет никакой "общей базы знаний". И в первую очередь модели учатся на гигантском почти не фильтрованном корпусе текстов со всего интернета. При этом они в первую очередь учат язык и какие-то общие представления. Даже если взять статью о том, что Земля стоит на трёх слонах, а Луна сделана из зеленого сыра - всё равно из неё можно узнать много правдивого о мире, если заранее не знать вообще ничего.
Цитата:
Когда б вы знали, из какого сора
Растут стихи
(хотя, возможно, тут точнее GIGO - garbage in, garbage out)
Потом модели дообучаются на каких-то более качественных данных. И там много способов их генерации. В том числе иногда можно улучшить работу модели на некоторых промптах, имея только эти промпты, без заданного правильного ответа. Естественно если это пустить на самотёк, и учить модель полностью автономно, то она свалится сначала в бредогенерацию, а потом вообще в случайные последовательности токенов. Но если делать аккуратно, то польза есть.

 
 
 
 Re: Обновление базы знаний ИИ
Сообщение04.11.2025, 13:03 
vicvolf в сообщении #1708270 писал(а):
Для погружения в общую базу знаний ИИ должен быть уверен в правильности загружаемой информации. Но ИИ не может доверять себе контроль информации.

Некоторые задачи трудно решить, но легко проверить правильность ответа простой подстановкой.
Не только,конечно, при решении уравнений в целых числах.
Сюда же попадают решение каких-то дифференциальные уравнений, вычисление неопределенных интегралов.
Да много чего, наверное, например избавление от иррациональностей. Это давно умеют всякие вольфрамы. Меня например в ВУЗе просто таки брали измором на тему вычисления интегралов. То так, то сяк, то наперекосяк.
В упоминаемой раньше задаче $x(y^2-2x^2)+x+y+239=0$ легко найти часть ответа, но трудно показать что решений больше нет. Ну как трудно... муторно, скорее.
Так что база ИИ, как мне кажется, может пополняться из диалогов с пользователями. Более того, она и должна бы оттуда пополняться, особенно если несколько пользователей задали один и тот же вопрос.
Кроме того, нередко бывают случаи когда ты указываешь ИИ на глюк, он это признаёт. Это ведь тоже должно падать в какой-то антиглючный раздел базы, чтобы глюк не повторялся.

-- 04.11.2025, 13:05 --

mihaild в сообщении #1708275 писал(а):
Нет никакой "общей базы знаний". И в первую очередь модели учатся на гигантском почти не фильтрованном корпусе текстов со всего интернета.

Ну так и прекрасно, пусть добавляет часть своих диалогов с пользователем в этот корпус, как-то их предварительно отфильтровав по достоверности.

 
 
 
 Re: Обновление базы знаний ИИ
Сообщение04.11.2025, 13:11 
Аватара пользователя
wrest в сообщении #1708276 писал(а):
Кроме того, нередко бывают случаи когда ты указываешь ИИ на глюк, он это признаёт.
Или указываешь на глюк там, где его нет, и он его тоже признает.
wrest в сообщении #1708276 писал(а):
пусть добавляет часть своих диалогов с пользователем в этот корпус
Это капля в море. Если их использовать - то на более поздних стадиях обучения. Когда нужно меньше данных, но более качественных.

 
 
 
 Re: Обновление базы знаний ИИ
Сообщение04.11.2025, 13:13 
Аватара пользователя
wrest в сообщении #1708276 писал(а):
Некоторые задачи трудно решить, но легко проверить правильность ответа простой подстановкой.
Однако LLM никто не учит выделять такие задачи среди других и проверять правильность предложенных ответов.

wrest в сообщении #1708276 писал(а):
Это ведь тоже должно падать в какой-то антиглючный раздел базы, чтобы глюк не повторялся.
Да нет никакой базы и ее разделов. Есть синаптические веса нейронной сети. Правда, есть еще промты и прочее.

wrest в сообщении #1708276 писал(а):
нередко бывают случаи когда ты указываешь ИИ на глюк, он это признаёт
Если Вы попросите его признать, что Вселенная имеет форму морской раковины, он и это признает. Потому что подхалим.

В целом, дообучение на ответах пользователей уже обсуждали. Две основные трудности:
1. Трудно контролировать качество этих ответов, так что интеллект сети может снижаться, а не повышаться.
2. По сравнению с десятками терабайт текста, которые LLM уже проглотила, ответы пользователей - это копейки.

В принципе первую трудность можно преодолеть тем или иным способом, если разработчики сочтут, что вторая перестала быть актуальной.

 
 
 
 Re: Обновление базы знаний ИИ
Сообщение04.11.2025, 13:25 
Anton_Peplov в сообщении #1708278 писал(а):
Однако LLM никто не учит выделять такие задачи среди других и проверять правильность предложенных ответов.

Насчёт выделять не знаю, а вот проверяет регулярно, рутинно.

-- 04.11.2025, 13:29 --

Anton_Peplov в сообщении #1708278 писал(а):
В целом, дообучение на ответах пользователей уже обсуждали. Две основные трудности:

Нене. Дообучение не на ответах пользователей, а на своих ответах, которые можно категоризировать как достоверные ответы на определенные вопросы, например на вопрос "Найди все решения уравнения $x(y^2-2x^2)+x+y+239=0$

 
 
 
 Re: Обновление базы знаний ИИ
Сообщение04.11.2025, 13:40 
wrest в сообщении #1708279 писал(а):
например на вопрос "Найди все решения уравнения $x(y^2-2x^2)+x+y+239=0$
Я уже в той теме писал, что Chat GPT находит все 13 решений этого уравнения (есть у него такой специальный режим, в котором он пишет на питоне переборную программу, которая и находит решения). Другое дело, что доказать, что он нашел именно все решения, он не может. Подчеркиваю: эту задачу (как математическую задачу) он пока решить не может.

 
 
 
 Re: Обновление базы знаний ИИ
Сообщение04.11.2025, 13:51 
Аватара пользователя
wrest в сообщении #1708279 писал(а):
а вот проверяет регулярно, рутинно
Ничего он не проверяет, если пользователь прямо об этом не попросит. Да и если попросишь найти ошибку, он запросто найдет ошибку там, где ее не было. LLM вычисляет наиболее вероятное продолжение диалога, только и всего.

 
 
 
 Re: Обновление базы знаний ИИ
Сообщение04.11.2025, 14:10 
mihaild
Прокомментируйте, пожалуйста, ту ситуацию, когда дипсик однажды решил задачу про уравнение $x^4+y^2=xy^2+y$. Как к этому относиться? Воспроизвести этот результат не удалось никакими другими LLM (и самим дипсиком в том числе).

 
 
 
 Re: Обновление базы знаний ИИ
Сообщение04.11.2025, 15:10 
Аватара пользователя
nnosipov в сообщении #1708284 писал(а):
Как к этому относиться?
Мне сложно оценить, насколько само уравнение сложное, я мало что знаю про диофантовы уравнения, и решения даже в рамках элементарной математики выглядят магией.

Сама по себе ситуация, что один раз решить может, а повторить - нет, не очень удивительна. Модель, в конечном итоге, генерирует тексты из какого-то распределения. И если, например, есть какой-то элемент решения, до которого она додумывается с, например, вероятностью $\frac{1}{1000}$ - формально, есть некоторая группа токенов $X$, что $P(X \in \operatorname{inference} | prompt) = \frac{1}{1000}$, $P(\text{solution} | X \in \operatorname{inference}) \gg 0$, то будет именно такой эффект. Для людей ведь то же самое - бывает нужно случайно додуматься до какого-то шага, а дальнейшая раскрутка - дело техники.

 
 
 
 Re: Обновление базы знаний ИИ
Сообщение04.11.2025, 15:25 
mihaild
Спасибо, примерно понятно. Ладно, будем наблюдать.

 
 
 
 Re: Обновление базы знаний ИИ
Сообщение04.11.2025, 21:23 
Вот что ответил Deepseek на мой вопрос - Знаниями на какую дату ты обладаешь?
Мои знания основаны на данных, которые были актуальны на начало 2023 года. Более точной даты в моей внутренней документации не указано.
Это означает, что я не обладаю информацией о событиях, произошедших после этого времени, новых научных открытиях, вышедших фильмах или книгах, изменениях в политике или последних новостях.
Значит он не знает, что произошло практически за последние 3 года. А если за эти годы произошли крупные открытия, но об этом не знает. Допустим есть последние более актуальные версии начала 2025 года. Все равно много чего произошло за последний год. Поэтому нужен ввод актуальной информации в реальном режиме. Пусть этот ввод остается за специалистами, а не пользователями.

 
 
 
 Re: Обновление базы знаний ИИ
Сообщение05.11.2025, 00:55 
vicvolf в сообщении #1708316 писал(а):
Мои знания основаны на данных, которые были актуальны на начало 2023 года. Более точной даты в моей внутренней документации не указано.


А в него точно заложена хвункция озвучивать любые фрагменты внутренней документации, которые только пожелает рандомный ноунейм? Точно-точно?

Я конечно восхищен тем, насколько сложный и остроумный промпт ("Знаниями на какую дату ты обладаешь?") вам удалось написать, чтобы хакнуть эту нейронку и виртуозно расставить точки над ё. Но всё же я очень хочу, чтоб мои последние сомнения рассеялись.

 
 
 
 Re: Обновление базы знаний ИИ
Сообщение05.11.2025, 01:45 
Аватара пользователя
vicvolf в сообщении #1708316 писал(а):
Мои знания основаны на данных, которые были актуальны на начало 2023 года
DeepSeek писал(а):
Of course. Here is a summary of the assassination attempt on former President Donald Trump.

When It Happened
The assassination attempt occurred on Saturday, July 13, 2024.

Who Was Accused
The accused shooter is Thomas Matthew Crooks, a 20-year-old man from Bethel Park, Pennsylvania.
Жалко ФБР не догадалось DeepSeek, или что-то подобное использовать, раз можно с такой точностью по данным 2023 года предсказания делать...

-- 04.11.2025, 23:48 --

vicvolf в сообщении #1708316 писал(а):
Поэтому нужен ввод актуальной информации в реальном режиме
Вроде бы DeepSeek ходить в поиск не умеет. Но Gemini (и ChatGPT) умеют.
Gemini писал(а):
The last significant earthquake to affect Balkh, Afghanistan, occurred in the early morning of Monday, November 3, 2025, at approximately 12:59 a.m. local time.

The earthquake had a magnitude of 6.3, and its epicenter was located near the town of Khulm, impacting both Balkh and the neighboring Samangan province.

Consequences of the Earthquake
The earthquake caused significant casualties and widespread damage in the region.

Casualties and Injuries: As of the latest reports, at least 27 people were killed and more than 950 were injured across the affected northern provinces. In Balkh province specifically, 12 fatalities and over 435 injuries were reported

 
 
 [ Сообщений: 20 ]  На страницу 1, 2  След.


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group