На сколько платные модели ИИ лучше бесплатных?

manul91 · 03.01.2026, 07:53

Что за чушь.
Суть не в том платные или бесплатные, а в конкретной модели.

ozheredov · 03.01.2026, 11:57

Yadryara в сообщении #1713945 писал(а):

Бесплатный Qwen

держится замечательно. Он как был тупым, так и остаётся. (Тупым в плане использования для работы, так-то они все умнее среднестатистического зуммерка)

Yadryara · 03.01.2026, 13:11

ozheredov в сообщении #1713955 писал(а):

Он как был тупым, так и остаётся.

Ну тут я бы поспорил, кстати. Какие критерии тупости применяете?

Из всех бесплатных LLM с которыми общался (а общался я мало с какими) он вроде самый умный.

MoonWatcher · 03.01.2026, 13:49

Сабж интересует применительно к поиску информации. Все бесплатные модели, что я пробовал (GPT-5, Gemini 3 Pro, Claude 4.5 Sonnet и Grok 4) абсолютно бесполезны и даже вредны - либо не находят информацию, либо, того хуже, сочиняют ее. Если кто-то может сделать платной модели запрос с моим промптом - буду признателен, я тогда смогу сравнить с информацией, которую собирал сам.

ivan_shatov · 05.01.2026, 14:56

zgemm в сообщении #1713382 писал(а):

Да, соглашусь, мне просто кажется, что если взять не самую суперсложную модель, возможно оффлайн, и попытаться с помощью нее строить само дерево итерационно и в качестве целевой функции иметь какую-то метрику, то за пару дней работы на H100 или примерно такой же архитектуре это дело может сойтись куда надо, и быть выгоднее, чем сотрудник, который за это время просто банально то же самое не успеет сделать.

Вы говорите про LLM-агента(ов), но они не автономные разумные системы, а достаточно не хитрые алгоритмические надстройки вокруг языковой модели: цикл вызовов, память, инструменты и заранее заданные роли. Они декомпозируют задачи(но даже на этом этапе нужен человек), генерируют типовой код(вот тут всё уже замечательно), выполняют локальные исправления и проходят формальные проверки. Всё это работает, пока задача хорошо описывается текстом и имеет чёткие критерии успеха. Агент в этом режиме — ускоритель исполнения, а не субъект решения. Чем более задача типовая тем выше вероятность её полностью автоматического решения.

Проблемы начинаются на уровне проектов или задач сложнее средних. LLM не удерживает устойчивую глобальную модель системы, не помнит причин принятия решений и не чувствует их, так сказать, "заморозки" во времени. Контекст фрагментируется, а архитектурные инварианты легко разрушаются очередной "разумной" переработкой. Для агента любое изменение обратимо и дёшево, тогда как в реальном проекте цена возврата болезненна. Нужны отдельные агенты которые "маскируют" сравнительно готовое от переделок и тп. Всё это пытаются решить всё новыми и новыми промт-костыликами или внешними агентами оркестрантами\супервайзерами, но система усложняется и постоянно возникают новые высокоуровневые баги, ещё более странные чем предыдущие.

Ещё человек интуитивно учитывает стоимость времени, риски, репутацию и последствия ошибок. Агент или система агентов не несёт ответственности, не платит за промахи и потому не оптимизирует реальность, хотя это тоже уже пытаются прикрутить, оптять е усложняя и добавляя проблем. В результате относительно простая система склонна либо к бесконечному улучшательству, либо к радикальным переделкам без понимания их цены, а посложнее иногда может вообще парализовать, или она начнёт давать совсем странные результаты, причины которых сложно понять человеку. Надо для справделивости отметить, что и людские команды довольно часто запарывают сложные проекты и тоже чаще всего из-за кризиса сложности и управления. Так что это проблема не самого подхода, а природы раработки сложных проектов.

В общем, системы из множества агентов не решают проблему фундаментально. Всё равно они остаются текстовыми процессорами с прибамчасами, без "якоря истины" и авторитетного "владельца решения". Такой "коллектив" легко скатывается в "театральную критику", согласие\несогласие друг с другом или дрейф требований. Это не коллективный разум, а оркестрация генераторов. Наверно каждый из нас был в ситуации, когда группа умных людей обсуждает проблему и это превращается в ерунду и результат какой то несуразный в итоге.

Человек со средними когнитивными способностями выигрывает не интеллектом, а "включённостью в реальность"(наличие модели мира), так сейчас кажется. Он работает с ситуацией, а не с формальной задачей; чувствует риск до его описания; управляет необратимостью и умеет вовремя остановиться. Его ошибки контекстны и локальны, потому что он живёт с их последствиями.

Даже гипотетическое добавление агенту сложной памяти, санкций, идентичности и права отказа не снимает фундаментального различия. Агент остаётся внешним по отношению к миру: переносимым, откатываемым, без экзистенциальной ставки. Поэтому пока: LLM-агенты могут оптимизировать и ускорять работу, но не могут быть носителями ответственности за реальный проект, как сотрудник за 30-50 баксов в час с LLM в инструментарии.

zgemm в сообщении #1713382 писал(а):

Не, там задача довольно не тривиальная. В промпте очень завуалированно сказано, что надо экономить вычислительные ресурсы. А если на все эти моменты обратить внимание, а потом попытаться это имплементировать на какой-либо реал-тайм платформе, то сотрудник (то биш я) пару месяцев реально угрохает, и вот тут-то как раз хочется начать экономить. А вот таких задач у меня сейчас реально пруд-пруди, а денег на сотрудников нет, и за задачи мне, к сожалению, не платят, так как они возникли от участия в конкурсе, в котором было бы престижно победить или не на последнем месте финишировать.

А вдруг оффлайн решение таки выстрелит, если суперплатные версии не сильно далеко вперед ушли? Как вы думаете, какую версию для таких целей правильнее ставить, и желательно, чтобы по-русски менеджерить?

Llama3 или Qwen2.5 не важно, "по русски" поначалу лучще не искать, это эксперимент, они выходят сейчас десятками в месяц. Существеннее не выбор модели, а то, насколько жёстко и прозрачно вы контролируете её использование. Начинать лучше без готовых агентных фреймворков, если цель разобраться. Простейшая ручная оркестрация в одном скрипте даёт больше понимания, чем сложные абстракции. Явный цикл, чёткие промпты, логирование каждого шага — это позволяет увидеть, где агент реально помогает, а где начинает гнать пургу. Магия как правило быстро исчезает, остаётся инженерная боль.

Ключевой момент — ограничения. Агенту нужен узкий коридор действий: фиксированные роли, лимиты итераций, запрет на пересмотр фундаментальных решений и архитектуры. Он хорошо работает на генерации boilerplate, тестов, документации, локальном рефакторинге, если речь про код. Там, где требуется глобальное понимание и работа с неопределённостью, его лучше не пускать. Ну или под жестким контролем, за полётом фантазии.

Главный помнить: вы не создаёте разумного "сотрудника", а собираете автоматизированный инструмент. Чем раньше это принять, тем полезнее и спокойнее будет эксперимент.

Mihaylo · 05.01.2026, 15:30

Да, но, чтобы правильно оценивать LLM, надо хотя бы уметь успешно их юзать...

ivan_shatov · 06.01.2026, 13:40

Mihaylo в сообщении #1714053 писал(а):

Да, но, чтобы правильно оценивать LLM, надо хотя бы уметь успешно их юзать...

100%

MoonWatcher · 07.01.2026, 16:48

MoonWatcher в сообщении #1713963 писал(а):

Сабж интересует применительно к поиску информации. Все бесплатные модели, что я пробовал (GPT-5, Gemini 3 Pro, Claude 4.5 Sonnet и Grok 4) абсолютно бесполезны и даже вредны - либо не находят информацию, либо, того хуже, сочиняют ее. Если кто-то может сделать платной модели запрос с моим промптом - буду признателен, я тогда смогу сравнить с информацией, которую собирал сам.

Аналогичная просьба про расшифровку YouTube видео. Лучше всех ChatGPT - честно сказал, что не умеет. Gemini галлюцинировал постоянно - сочинял произвольные факты и произвольное время видео (в которое эти факты якобы были озвучены).

Самая непостижимая загадка для меня - откуда столько энтузиазма и оптимизма относительно ИИ. Дошло до утверждений, что в чем-то он уже умнее человека, и что AGI уже практически существует. Но это утверждение было справедливо и полвека назад, когда компьютеры обыгрывали людей в шахматы. В моем понимании AGI подразумевает способность делать ЛЮБУЮ интеллектуальную работу, на которую способен хотя бы очень посредственный человек.

mihaild · 07.01.2026, 16:55

MoonWatcher в сообщении #1714216 писал(а):

Аналогичная просьба про расшифровку YouTube видео

Попробуйте notebook lm. Как минимум субтитры он читает правильно.

MoonWatcher · 07.01.2026, 17:39

mihaild
Этот вообще игнорирует мои указания - прошу сделать полную расшифровку, а он все время делает краткий пересказ. Но выборочная проверка показала, что факты из видео более-менее извлекаются. Правда, notebook lm тоже неправильно расшифровал одно слово (optimist вместо Optimus), и возможно поэтому вместо правильно ответа "три года" ответил "от 3 до 4 лет". Подтверждающие сноски на источник есть, но они в виде беспорядочного текста без абзацев и без тайм-кодов.

ivan_shatov · 08.01.2026, 14:26

MoonWatcher в сообщении #1714216 писал(а):

Самая непостижимая загадка для меня - откуда столько энтузиазма и оптимизма относительно ИИ. Дошло до утверждений, что в чем-то он уже умнее человека, и что AGI уже практически существует. Но это утверждение было справедливо и полвека назад, когда компьютеры обыгрывали людей в шахматы. В моем понимании AGI подразумевает способность делать ЛЮБУЮ интеллектуальную работу, на которую способен хотя бы очень посредственный человек.

Энтузиазм вокруг ИИ в целом обоснован, текущие системы уже закрывают широкий спектр когнитивных задач и демонстрируют начальный перенос навыков между доменами. Однако это всё ещё не "любая" интеллектуальная деятельность. Человеческий ЕИ — это универсальный набор разнородных умений, своего рода швейцарский нож, где сочетаются моторика, социальное понимание, интуитивная физика, причинное мышление и способность ставить собственные цели. Современный ИИ опирается в основном на текст и визуальные данные; у него нет целостной модели мира и множества мелких, но критичных микронавыков, которые человек приобретает в ходе жизни.

Доминирующая инженерная позиция в том, что речь идёт не о принципиальном барьере, а о незавершённости работы, что может продолжаться десятки лет и больше, как например с ОС или софтом гугла. Предполагается, что недостающие компоненты — интеграция модальностей, долговременная память, world model, онлайновое обучение — могут быть добавлены поэтапно. В этой логике AGI не требует нового понятия интеллекта, а сводится к масштабированию, усложнению архитектур и накоплению более репрезентативных данных.

Ключевое ограничение на данный момент — не теоретическое, а практическое: стоимость, сложность и экономическая целесообразность таких систем. Именно поэтому преобладает мнение, что AGI — это вопрос времени и ресурсов. Есть и альтернативная позиция, маргинальная, согласно которой некоторые свойства человеческого интеллекта могут не редуцироваться к обучению на данных и оптимизации, а значит, на пути к AGI возможны непреодолимые ограничения, но это похоже не анти-эволюционизм и мистику.

Можно ожидать, что скоро всё это обложат лимитами и законами, какие то алгоритмы и датасеты будут криминализованны и находиться под строгим контролем, хотя имхо это также тупо как борьба с цифровым пиратством.

MoonWatcher · 08.01.2026, 15:49

ivan_shatov
Звучит разумно, но довольно абстрактно относительно моей конкретной проблемы. Когда я спрашивал о ее причинах у чат-ботов, они отвечали, что не видят полностью веб-сайты, что у них какие-то другие таймлайны в расшифровках YouTube-видео и про прочие непонятно почему возникшие технические проблемы. Если это правда, то есть повод для оптимизма - такие проблемы рано или поздно исправят (надеюсь, что все-таки за годы, а не десятки лет). Гораздо хуже с галлюцинациями, когда ИИ затыкает враньем пробелы в своих возможностях. Вот это действительно фундаментальная проблема, с которой LLM не факт что справятся несмотря на все ухищрения (хотя и исключать этого нельзя).

Меня просто удручает игнорирование этой проблемы, я нигде не встречал ее обсуждения (хотя сами исследования есть, в том числе недавние). На фоне таких проблем (когда ИИ абсолютно не способен выполнить элементарную и в то же время, ИМХО, наиболее актуальную для большинства людей задачу) я бы на месте руководителей ИИ-компаний про скорое пришествие AGI молчал в тряпочку. Но они на своем месте осведомлены намного лучше меня, и я далек от распространенного обывательского мнения, что они просто раздувают хайп ради инвестиций. У них есть доступ к закрытым моделям, они плотно общаются с разработчиками и соответственно лучше кого-либо понимают перспективы. Поэтому у меня 4 версии:
1) описанная мною проблема чисто техническая, интеграцию ИИ с Интернетом можно подкрутить, и в качестве агента он действительно станет не хуже человека (даже несмотря на галлюцинации);
2) проблема не только техническая, но ее решает выделение больших ресурсов (думать не секунды, а минуты и даже часы);
3) проблему не решают даже ресурсы, но ИИ-компании близки к решению этой проблемы с точки зрения своих закрытых разработок;
4) проблема в обозримом будущем в принципе не разрешима, но руководители ИИ-компаний этот факт либо игнорируют, либо просто замалчивают.

ivan_shatov · 10.01.2026, 18:02

MoonWatcher в сообщении #1714249 писал(а):

ivan_shatov
Звучит разумно, но довольно абстрактно относительно моей конкретной проблемы. Когда я спрашивал о ее причинах у чат-ботов, они отвечали, что не видят полностью веб-сайты, что у них какие-то другие таймлайны в расшифровках YouTube-видео и про прочие непонятно почему возникшие технические проблемы. Если это правда, то есть повод для оптимизма - такие проблемы рано или поздно исправят (надеюсь, что все-таки за годы, а не десятки лет). Гораздо хуже с галлюцинациями, когда ИИ затыкает враньем пробелы в своих возможностях. Вот это действительно фундаментальная проблема, с которой LLM не факт что справятся несмотря на все ухищрения (хотя и исключать этого нельзя).

Меня просто удручает игнорирование этой проблемы, я нигде не встречал ее обсуждения (хотя сами исследования есть, в том числе недавние). На фоне таких проблем (когда ИИ абсолютно не способен выполнить элементарную и в то же время, ИМХО, наиболее актуальную для большинства людей задачу) я бы на месте руководителей ИИ-компаний про скорое пришествие AGI молчал в тряпочку. Но они на своем месте осведомлены намного лучше меня, и я далек от распространенного обывательского мнения, что они просто раздувают хайп ради инвестиций. У них есть доступ к закрытым моделям, они плотно общаются с разработчиками и соответственно лучше кого-либо понимают перспективы. Поэтому у меня 4 версии:
1) описанная мною проблема чисто техническая, интеграцию ИИ с Интернетом можно подкрутить, и в качестве агента он действительно станет не хуже человека (даже несмотря на галлюцинации);
2) проблема не только техническая, но ее решает выделение больших ресурсов (думать не секунды, а минуты и даже часы);
3) проблему не решают даже ресурсы, но ИИ-компании близки к решению этой проблемы с точки зрения своих закрытых разработок;
4) проблема в обозримом будущем в принципе не разрешима, но руководители ИИ-компаний этот факт либо игнорируют, либо просто замалчивают.

Хм… вроде сегодня написал Вам ответ, а он пропал куда то, или приснилось мне это, как тому китайцу что он бабочка, или бабочке… Ну да ладно.

Короче говоря согласен Вами.

Научный форум dxdy

На сколько платные модели ИИ лучше бесплатных?