Новости ИИ

skobar · 04/06/24 295

Маск не верит, что DeepSeek реализован на дешевых доступных чипах:

"My understanding is that Deepseek has about 50,000 H100s, which they can't talk about obviously because it is against the export controls that the U.S. has put in place. I think it is true that they have more chips that people than other people expect. But on a go forward basis, they are going to be limited by the chip controls and the export controls that we have in place."

https://seekingalpha.com/news/4398908-m ... idia-chips

Чипы H100 запрещены к экспорту в Китай, не говоря уже о России.
С другой стороны Маск, очевидно, не может считаться лицом незаинтересованным.

mihaild · 16/07/14 9737 Цюрих

skobar, аккуратнее цитируйте. Это сказал не Маск, а Ванг. Впрочем, откуда он мог взять эти числа, кроме как напрямую из астрала, я тоже не очень понимаю. Huggingface в процессе воспроизведения r1. Посмотрим на результаты.
Я ставлю на то, что при указанных ресурсах, качество у них получится неплохое, но заметно хуже заявленного.

skobar · 04/06/24 295

mihaild в сообщении #1671716 писал(а):

skobar, аккуратнее цитируйте. Это сказал не Маск, а Ванг.

Да, это сказал Ванг, но Маск с ним полностью согласился (ответив "obviously"), так что по свойству транзитивности можно считать, что и Маск это сказал :)
Лично мое мнение, что слова Ванга звучат правдоподобно. Он сам китаец, и более информированный.
С точки зрения реакции рынков, tech bubble на рынке надулся изрядный, и рынок просто использует это новость как повод для здоровой назревшей коррекции и вытряхивания "weak hands". В истории рынков такое происходило регулярно.

Rasool · 20/09/09 2144 Уфа

С телеграм-канала Spydell_finance:

Цитата:

Что можно ожидать от LLMs в 2025 году?

Это как захватывающий блокбастер с непредсказуемым развитием сюжета – интересно и интригующе, но и важно, т.к. от траектории развития ИИ зависит экономический, технологический и даже геополитический мировой ландшафт.

Темп инноваций феноменальный, а вчерашние лидеры очень быстро могут стать аутсайдерами, все меняется очень быстро.

Если компании в секторе ИИ не вносят существенные инновации в среднем раз в 1.5 месяца и значительные модернизации раз в полгода – вероятность вылететь за борт резко возрастает.

Пример компании Anthropic, которая всего полгода назад была в лидерах, а теперь стремительно отказывается (нет рассуждающих модификаций моделей, нет доступа к сети, нет тонкой настройки через условный GPT, как у OpenAI или Gem, как у Google).

Даже OpenAI с «архаичной» моделью ChatGPT 4o безнадежно устарел – по сути, базовая модель не меняется два года и, если бы не релиз o1 осенью и o1 pro зимой с планами внедрения o3 в начале 2025, баланс сил был бы совершенно иным.

На Олимп врывается новой король – DeepSeek R1, но нет гарантий, что удержат темп. В чем секрет успеха DeepSeek R1, как им удалось достигнуть такой эффективности и производительности при столь малых инвестициях? Вероятно, за счет чистого обучения с подкреплением (RL) без предварительного этапа контролируемой тонкой настройки (SFT) плюс самоэволюция через алгоритмы группового сравнения выходных результатов.

Успех DeepSeek заставил более активно действовать OpenAI, ускоряя разработку и внедрение o3, которая могла выйти не ранее середины 2025, эксплуатируя ресурс o1.

По сути, DeepSeek заставляет задуматься, а на какой черт нужны инвестиции в сотни миллиардов долларов в ИИ, когда можно управиться небольшой командой с ресурсами на три (!) порядка меньше, т.е. в тысячи раз?

Феномен DeepSeek еще предстоит изучить, а пока технологический сектор США в ошарашенном состоянии пытается спешно ускорять внедрение прогрессивных моделей.

В следующие три месяца должны быть представлены: OpenAI ChatGPT o3, Google Gemini 2 в расширенной версии с механизмом рассуждения, Grok3, Claude 4 с вероятным доступом в сеть и рассуждением, а особенно интересно, как и в каком направлении будет развиваться DeepSeek?

С каждым месяцем стоимость прогресса возрастает, а видимость прогресса снижается, сейчас уже сложно добиться количественного прогресса, т.к. наборы качественных данных ограничены.

LLM начинаются тренироваться на синтетических данных, сгенерированных самими LLM, но что если изначальное качество генерации остается низким, искажая весь процесс обучения?

Что я ожидаю в 2025?

● Усовершенствованные рассуждения и логические способности (впервые появились в начале осени 2024): LLM станет лучше для решения сложных задач, которые требуют нескольких шагов, планирование и структурированные логические выводы. Это включает в себя понимание причинно-следственных и эффектных рассуждений.

● Контроль над ошибками и верификация результатов – это основное препятствие к внедрению LLMs в бизнес проекты, но процесс активной стабилизации галлюцинации ГИИ начался в 2024 и очевидно будет продолжен в 2025.

● Более глубокая персонализация и настройка через прямые пользовательские инструкции для LLMs (то, что было внедрено еще в конце 2023, но должно получить развитие и улучшение гибкости в 2025 и далее).

● Внедрение пользовательских агентов: обычные скрипты, которые благодаря расширенному функционалу и возможностям ГИИ способны лучше и эффективнее автоматизировать рутинные задачи по широкому спектру. Первый блин комом от OpenAI с ИИ агентом Operator на прошлой неделе, но это только начало.

● Возможность появления глубокого анализа контента так, как это частично пытается внедрить Genspark, что позволит создавать детализированные ответы и исследования на пользовательские запросы через анализ сотен различных источников.

● Развитие поисковых систем на основе ГИИ.

На развитие LLMs смотрю позитивно, понимания при этом, что не стоит ждать чудес сразу – слишком мало времени прошло от массового внедрения.

Rasool · 20/09/09 2144 Уфа

mihaild в сообщении #1671708 писал(а):

Rasool в сообщении #1671688 писал(а):

Означает ли это, что эра ИИ наступила не только для крупных центров вроде США, Москвы, но и для таких провинциальных городов, как Уфа с их скромными ресурсами?

Что такое "эра ИИ для Уфы"? При современной связи где хостится модель - неважно для большинства приложений. Мой телеграмм-бот, внутри зовущий Gemini, успешно хостится на виртуалке за 5 долларов в месяц. Для каких уникальных задач Уфе нужно учить свою модель? Или для каких её задач стоимость 10 долларов за токен это дорого, а 1 нормально?

Я имел в виду возможность трудоустройства в области ИИ в Уфе.

Mental · 29/05/17 836

Rasool в сообщении #1671750 писал(а):

Я имел в виду возможность трудоустройства в области ИИ в Уфе.

Можно устроиться на работу в удалённом формате в городе-герое Москве.

Rasool · 20/09/09 2144 Уфа

В связи с шумихой вокруг DeepSeek и LLM на дешевых чипах, можно ли ожидать, что в будущем появятся локальные LLM приемлемого функционала на смартфонах?
Нагуглил требуемое "железо" для DeepSeek-R1:

(Оффтоп)

Нашумевшая бесплатная нейросеть DeepSeek-R1, которая при своей открытости работает на уровне платной модели ChatGPT o1, стала известна в том числе благодаря крайне маленькому для LLM такого уровня размеру — её в буквальном смысле получится запустить на домашнем компьютере, а не на мощных серверах в дата-центрах. Причём речь даже не об «урезанных» версиях нейросети, а о полноценной DeepSeek-R1 без дистилляции и при квантизации Q8 (обеспечивающей баланс между точностью, скоростью работы и весом). В соцсети X пользователь с ником @carrigmat составил сборку компьютера (гиперссылка не откроется из РФ), который сможет запустить такую модель локально, указав конкретные компоненты и их суммарную стоимость. Менее чем за сутки его пост собрал более 4,2 млн просмотров.

Необходимая материнская плата — Gigabyte MZ73-LM0 или MZ73-LM1. Необходимо два EPYC-сокета для 24 каналов под оперативную память DDR5, чтобы обеспечить максимальные объём ОЗУ и пропускную способность.

В качестве процессора понадобится любой из семейств AMD EPYC 9004 или 9005 в количестве двух экземпляров. Поскольку узким горлышком бутылки для LLM выступает пропускная способность памяти, на чипсет нет смысла тратить слишком много. Подойдёт даже 9115 или 9015, если нужно сэкономить по максимуму.

Выбор радиатора может быть проблемным, поскольку процессоры AMD EPYC используют сокет SP5, а большинство радиаторов для него рассчитаны на установку в серверные корпуса 2U/4U. Но подходящие модели можно найти на AliExpress или Ebay. При этом встроенные вентиляторы лучше заменить на Noctua NF-A12x25, чтобы они работали эффективнее и тише.

А вот на оперативной памяти экономить не стоит — понадобится 768 ГБ (чтобы вместилась нейросеть). То есть нужны 24 планки типа DDR5-RDIMM по 32 ГБ.

SSD-хранилище должно быть объёмом 1 ТБ, чтобы вместить DeepSeek-R1. При этом чем быстрее, тем лучше, поскольку придётся «перегонять» более чем 700-гигабайтную модель в оперативную память при её запуске.

Потребляемая мощность этой сборки, на удивление, низкая — до 400 Вт. Однако понадобится много кабелей для двух EPYC-сокетов. Подойдёт Corsair HX1000i или более дешёвая модель с аналогичными характеристиками.

В качестве корпуса можно выбрать любую башенную модель, но с крепёжными стойками под серверные материнские платы, которые есть не везде. Сгодится, например, Phanteks Enthoo Pro 2 Server.

Суммарная стоимость комплектующих и корпуса составляет около 6000 долларов.

Rasool · 20/09/09 2144 Уфа

Mental в сообщении #1671776 писал(а):

Rasool в сообщении #1671750 писал(а):

Я имел в виду возможность трудоустройства в области ИИ в Уфе.

Можно устроиться на работу в удалённом формате в городе-герое Москве.

В связи с растущим удешевлением и доступностью железа для LLM сейчас можно спрогнозировать появление массы компаний, специализирующихся на разработке и применении ИИ в бизнесе и разных других областях промышленности и экономики. Отсюда вырастет и рынок труда для ИИ-разработчиков, ИИ-специалистов. Я прав?

Mental · 29/05/17 836

Rasool в сообщении #1673558 писал(а):

В связи с растущим удешевлением и доступностью железа для LLM сейчас можно спрогнозировать появление массы компаний, специализирующихся на разработке и применении ИИ в бизнесе и разных других областях промышленности и экономики. Отсюда вырастет и рынок труда для ИИ-разработчиков, ИИ-специалистов. Я прав?

Не совсем. Все диктует экономическая целесообразность. Если руководителю бизнеса (при наличии компетентности) выгодны инвестиции в сфере ИИ, то он их сделает.
По всей видимости в России сейчас появятся много контор которые будут подключать YandexGPT, DeepSeek и прочее. Т.е. сами LLM они уже разрабатывать не будут, так как это чрезвычайно трудозатратно.

Железо для ИИ дешевым никогда не бывает:

Mihaylo · 12/07/15 3660 г. Чехов

Rasool в сообщении #1673556 писал(а):

в будущем появятся локальные LLM приемлемого функционала на смартфонах?

Тут такая интересная фишечка. Это я говорю для тех, кто в танке.

Зачем нужно много памяти и почему смартфон не потянет большие LM. LLM должна отвечать почти на любой вопрос, иначе нахрен она не нужна, тогда спросить можно любого прохожего - больше толку будет.

Но сейчас появляется функционал "Search" - это когда нейросеть ищет в интернете всякие релевантные ссылки, суммаризирует и вставляет сама себе в цепочку размышления (CoT, Chain of Thought), и потом утюжит это своим привычным функционалом RL.

"Search" появился на днях у OpenAI и у DeepSeek чуть раньше (но как-то не работал), кнопочки даже одинаково выглядят. Мне кажется, этот функционал способен в разы разгрузить нейросетевую часть алгоритма по объему памяти. Это там, где трансформеры с квадратичной сложностью. Теперь, чтобы рассказать историю деревни Мухино в какой-нибудь Астраханской области, не нужно её знать, а можно просто загуглить и пересказать. Пока текущие алгоритмы всю эту байду держат в голове, видимо, в надежде, что кто-то спросит, какого цвета трусы любил носить Шекспир.

-- 07.02.2025, 19:05 --

Короче, грядёт специализация, LLM должны превратиться в MLM (Medium Language Models), то есть знать только общеязыковые зависимости и какую-то специализацию, а не всё подряд, либо общеязыковые закономерности и уметь гуглить.

mihaild · 16/07/14 9737 Цюрих

Mihaylo в сообщении #1673676 писал(а):

Но сейчас появляется функционал "Search" - это когда нейросеть ищет в интернете всякие релевантные ссылки

Этот функционал появился примерно в палеолите. Насколько я помню, первая же публичная версия барда в 2023 это умела.

Mihaylo в сообщении #1673676 писал(а):

и потом утюжит это своим привычным функционалом RL

Что, простите? RL - это способ обучения, в момент применения никакого RL уже нет.

Mihaylo в сообщении #1673676 писал(а):

Мне кажется, этот функционал способен в разы разгрузить нейросетевую часть алгоритма по объему памяти

Если бы это было так, то были бы маленькие модели, способные грамматически корректно и самосогласованно рассуждать о небольшом наборе фактов. Но пока что таких нет.

-- 07.02.2025, 18:16 --

Mihaylo в сообщении #1673676 писал(а):

Короче, грядёт специализация, LLM должны превратиться в MLM (Medium Language Models), то есть знать только общеязыковые зависимости и какую-то специализацию

На этой идее построен подход mixture of experts. Который работает, и дает свой вклад в соотношение эффективность/качество, но никаким запуском на простом железе и близко не пахнет.

Mihaylo · 12/07/15 3660 г. Чехов

MoE - это имитация того, что я называю MLM. MoE - это модель, которая требует столько памяти, сколько надо для полноценной LLM.

Rasool · 20/09/09 2144 Уфа

Anton_Peplov в сообщении #1629577 писал(а):

Rasool в сообщении #1627507 писал(а):

Нейротехнологическая компания Илона Маска Neuralink впервые вживила имплант в мозг человека. Об этом миллиардер сообщил в своей соцсети X.
Эта новость имеет отношение к ИИ, потому что с помощью имплантов можно исследовать работу мозга и использовать эти знания для совершенствования ИИ.

Эта новость весьма косвенное отношение даже к исследованию мозга, не говоря уж про ИИ .

Имплантаты, в принципе, можно использовать для исследования мозга. Но ни один этический совет не даст разрешения вживить человеку под череп железку только для того, чтобы исследовать мозг. Нужны медицинские показания.

Конкретный имплантат, недавно внедренный Neuralink - это интерфейс "мозг-компьютер". Его задача помочь парализованным людям управлять техникой. Он превращает мысленные команды в движения курсора и клики.

Первая система такого рода была испытана еще в 1998 г. С тех пор было много других экспериментов. Но до стадии коммерческого продукта ни одна из этих систем не дошла. Удастся ли Neuralink создать что-то большее, чем экспериментальный образец - покажет время. В любом случае к ИИ это имеет очень мало отношения.

Новость с телеграм-канала MTS AI:

Цитата:

Meta научилась предсказывать текст по сигналам мозга.

Компания представила Brain2Qwerty — ИИ, который расшифровывает мысли без имплантов и операций. Подробнее о том, как он работает и какие результаты показывает, читайте на карточках.

Спойлер: средняя ошибка Brain2Qwerty составила 67% (на EGG), а у отдельной категории участников эксперимента — 19%.

Как оцениваете технологию?

Утундрий · 15/10/08 13017

Rasool в сообщении #1674486 писал(а):

Как оцениваете технологию?

Это та самая, которая весит три тонны, требует практически полной экранировки земного магнитного поля и, как следствие, не работает вне лаборатории?

Rasool · 20/09/09 2144 Уфа

Команда DeepSeek объявила, что сделает общедоступным код своей ИИ-модели. В открытый доступ выложат пять репозиториев, хранилищ кода, где хранятся файлы и история изменений проекта. deepseek_ai

Научный форум dxdy

Новости ИИ

Кто сейчас на конференции