Новости ИИ

Mihaylo · 12/07/15 3660 г. Чехов

А можете кратко описать, где тут платное/бесплатное, доступное/недоступное для россиян?

talash · 01/09/14 739

Mihaylo в сообщении #1663867 писал(а):

А можете кратко описать, где тут платное/бесплатное, доступное/недоступное для россиян?

Какой ИИ доступен бесплатно не знаю, наверное только ChatGPT 4o mini, может если залогиниться, то больше будет доступно.
Думаю самое трудное это оплатить, все банки же под санкциями? Доступ тоже напрямую закрыт, но можно через VPN.

talash · 01/09/14 739

Нашёл про ограничения:

Цитата:

С учетной записью ChatGPT Plus или Team для начала вы получите доступ к 50 сообщениям в неделю с OpenAI o1 и к 50 сообщениям в день с OpenAI o1-mini.
https://help.openai.com/en/articles/982 ... nd-the-api

Rasool · 20/09/09 2144 Уфа

12-14 декабря прошла очередная ежегодная конференция https://aij.ru/program?concreteDate=2024-12-12. Есть записи секций, посвященных применению ИИ в обществе, бизнесе и науке.

vicvolf · 23/02/12 3493

Илон Маск заявил, что искусственный интеллект может превзойти интеллект человека уже к концу 2025 года, а к 2030 году вероятность того, что ИИ превзойдет всех людей вместе взятых, он оценивает в 100%. Эти прогнозы он озвучил, комментируя успехи новой модели ChatGPT от OpenAI.

Венчурный инвестор Чамат Палихапития отметил, что модель установила рекорды по ряду тестов, включая 96,7% на американском вступительном экзамене по математике и 87,7% на уровне аспирантуры по науке.

Эксперты предупреждают: если прогнозы Маска оправдаются, уже в следующем году может появиться сильный ИИ, способный самостоятельно улучшать свои когнитивные способности. Это приведет к так называемому «интеллектуальному взрыву» и созданию суперинтеллекта, превосходящего весь человеческий интеллект.

Rasool · 20/09/09 2144 Уфа

Интерес OpenAI к робототехнике растёт: компания рассматривает создание гуманоида.

Rasool · 20/09/09 2144 Уфа

DeepSeek обнаружили, что у их новой модели был момент озарения, когда она сама для себя разработала продвинутую технику рассуждения.

Цитата:

Оказывается, вам просто нужно правильно стимулировать модель.

Читой воды обучение с подкреплением (RL) может научить модель думать и рефлексировать.

Мы возвращаемся в эпоху AlphaGo: играя в бесчисленные партии Go и максимально увеличивая функцию вознаграждения (выигрыш в игре), используя чистый RL, AlphaGo научился побеждать лучших игроков мира.

Похоже это будет эра LLM RL.

Статья.
Там интересно, что лёгкие варианты этой модели по тестам рвут гпт4 и Клода сонет. А это значит, что лёгкие модели можно не только запускать на локальных машинах, но и обучать дополнительно под свои задачи на обычных ПК (пусть и очень мощных).

Sender · 14/01/11 3475

Задачу на взвешивание монет бесплатная web-версия пока не осиливает https://dxdy.ru/topic120031.html.

Rasool · 20/09/09 2144 Уфа

Цитата:

Представляем rStar-Math, демонстрирующий, что малые языковые модели (SLM) могут соперничать или даже превосходить математические способности рассуждения OpenAI o1, без дистилляции от более совершенных моделей. rStar-Math достигает этого путем применения "глубокого мышления" через поиск по методу Монте-Карло (MCTS), где математическая политика SLM выполняет поиск во время тестирования под руководством модели вознаграждения процесса на основе SLM.
rStar-Math вводит три инновации для решения проблем в обучении двух SLM:

1) новый метод синтеза данных CoT с дополнением кодом, который выполняет обширные прогоны MCTS для генерации пошаговых проверенных траекторий рассуждений, используемых для обучения политики SLM;
2) новый метод обучения модели вознаграждения процесса, который избегает наивной пошаговой аннотации оценок, создавая более эффективную модель предпочтений процесса (PPM);
3) рецепт самоэволюции, в котором политика SLM и PPM создаются с нуля и итеративно развиваются для улучшения способностей рассуждения.

Через 4 раунда самоэволюции с миллионами синтезированных решений для 747 тысяч математических задач, rStar-Math поднимает математические рассуждения SLM до современного уровня. В тесте MATH он улучшает показатели Qwen2.5-Math-7B с 58.8% до 90.0% и Phi3-mini-3.8B с 41.4% до 86.4%, превосходя o1-preview на +4.5% и +0.9%. На математической олимпиаде США (AIME) rStar-Math решает в среднем 53.3% (8/15) задач, входя в топ-20% самых способных учеников старших классов по математике.

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

talash · 01/09/14 739

Они бы веб-сервис запилили, чтобы каждый мог проверить. А статейки без сервиса - неинтересно.

Rasool · 20/09/09 2144 Уфа

https://t.me/web3nity_channel/1012

Я в твиттере не зареган поэтому оригинал не могу проверить, доверяюсь каналу в телеге опубликовавшим этот перевод:

Цитата:

Что за зверь DeepSeek и почему Nvidia больно?

поделюсь интересным наблюдением Моргана Брауна
Вице президента по развитию продуктов - instagram, dropbox, shopify

Инновации DeepSeek в области ИИ поражают людей (и, возможно, угрожают рыночной капитализации Nvidia в $2t)

1/ Сначала немного контекста: Сейчас обучение топовых моделей ИИ НЕВЕРОЯТНО дорогое.
OpenAI, Anthropic и другие тратят $100 млн+ только на вычислительные ресурсы. Им нужны огромные дата-центры с тысячами GPU стоимостью$ 40K каждый. Это как если бы для работы завода требовалась целая электростанция.

2/ DeepSeek появились и сказали: "А что, если мы сделаем это за $5m?"
И они не просто говорили — они действительно это сделали. Их модели соответствуют или превосходят GPT-4 и Claude во многих задачах.
Мир ИИ роняет слезки в тирамису

3/ Как? Они переосмыслили всё с нуля. Традиционный ИИ — это как писать каждое число с 32 знаками после запятой. DeepSeek сказали: "А что, если мы будем использовать только 8? Этого достаточно!"
Бум — на 75% меньше памяти.

4/ Затем их система "мульти-токенов".
Обычный ИИ читает как первоклассник: "Кошка... сидит... на...". DeepSeek читает целыми фразами сразу. В 2 раза быстрее, с точностью 90%. Когда вы обрабатываете миллиарды слов, это ВАЖНО.

5/ Но самое крутое в их подходе:
Они создали "экспертную систему".
Вместо одного огромного ИИ, который пытается знать всё (как если бы один человек был врачом, юристом И инженером), у них есть специализированные эксперты, которые активируются только когда это нужно.

6/ Традиционные модели?
Все 1,8 триллиона параметров активны ВСЕГДА.
DeepSeek? 671 млрд параметров в общей сложности, но только 37 млрд активны одновременно.
Это как иметь огромную команду, но вызывать только тех экспертов, которые действительно нужны для каждой задачи.

7/ Результаты ошеломляющие:
- Стоимость обучения: 100 млн долларов → 5млн. долларов.
- Необходимые GPU: 100 000 → 2 000
- Стоимость API: на 95% дешевле
- Может работать на игровых GPU вместо серверного оборудования

8/ "Но подождите," — скажете вы, — "должен быть подвох!" Вот что самое интересное — всё это открытый исходный код.
Любой может проверить их работу. Код публичный. Технические документы объясняют всё. Это не магия, просто невероятно умная инженерия.

9/ Почему это важно? Потому что это ломает модель "только крупные tech-компании могут играть в ИИ".
Теперь вам не нужен дата-центр за миллиард долларов. Несколько хороших GPU могут быть достаточны.

10/ Для Nvidia это страшно. Вся их бизнес-модель построена на продаже супердорогих GPU с маржой 90%. Если вдруг все смогут делать ИИ на обычных игровых GPU...

11/ DeepSeek сделали это с командой менее 200 человек. В то время как в Meta есть команды, где только компенсации сотрудников превышают весь бюджет обучения DeepSeek... и их модели не так хороши.

12/ Это классическая история прорыва: Лидеры рынка оптимизируют существующие процессы, а disruptors переосмысливают фундаментальный подход.
DeepSeek спросили: "А что, если мы просто сделаем это умнее, вместо того чтобы использовать больше железа?"

13/ Последствия:
- Разработка ИИ становится более доступной
- Конкуренция резко возрастает
- железо крупных tech-компаний кажется не нужным
- Требования к оборудованию (и затраты) резко снижаются

14/ Конечно, гиганты вроде OpenAI и Anthropic не будут стоять на месте.
Они, вероятно, уже внедряют эти инновации. Но джинн выпущен из бутылки — возврата к подходу "просто брось больше GPU" уже не будет.

15/ Это похоже на один из тех моментов, о которых мы будем вспоминать как о переломных. Как когда ПК сделали мейнфреймы менее актуальными, или когда облачные вычисления изменили всё.

ИИ скоро станет намного доступнее и намного дешевле. Вопрос не в том, будет ли это прорывом для текущих игроков, а в том, как быстро это произойдет.

talash · 01/09/14 739

Rasool, DeepSeek мощный ИИ, даже метро в Дамаске построил
post1663214.html#p1663214

Но надо затестировать его новую версию R1.

mihaild · 16/07/14 9737 Цюрих

[На всякий случай: всё ниже является моим личным мнением.]
Перевод из твиттера правильный. Утверждения в твиттере - не особо.

Цитата:

DeepSeek появились и сказали: "А что, если мы сделаем это за $5m?"

Товарищи не пишут, откуда взяли обучающую выборку. Но есть большое подозрение, что они учились на выдаче других моделей https://www.reddit.com/r/LocalLLaMA/com ... g_data_is/. А значит, к стоимости обучения надо бы добавить стоимость генерации этих данных (включая обучение других моделей, и инференс).

Цитата:

Традиционный ИИ — это как писать каждое число с 32 знаками после запятой. DeepSeek сказали: "А что, если мы будем использовать только 8? Этого достаточно!"

В общем-то на этом можно закончить, что взять с человека, путающего число бит на всё число с плавающей точкой, и число знаков после запятой? Квантизация во float16 и int8 хорошо известна, и есть, например, в стандартном туториале гугла https://ai.google.dev/edge/litert/model ... eger_quant.

Цитата:

DeepSeek читает целыми фразами сразу

Точнее - по два токена. И этот подход известен довольно давно. Но товарищи вроде бы действительно первыми его внедрили для большой модели.

Цитата:

Вместо одного огромного ИИ, который пытается знать всё (как если бы один человек был врачом, юристом И инженером), у них есть специализированные эксперты, которые активируются только когда это нужно.

Гугл анонсировал это же год назад https://blog.google/technology/ai/googl ... #gemini-15. И по сообщениям агентства ОБС, ChatGPT использует тот же подход.

Цитата:

671 млрд параметров в общей сложности, но только 37 млрд активны одновременно

Следствие из предыдущего.

Цитата:

Теперь вам не нужен дата-центр за миллиард долларов. Несколько хороших GPU могут быть достаточны

А тут вопрос в масштабировании. Важно же не абсолютное качество, а разница в качестве между моделями, помещающимися на калькулятор и требующими датацентр. Если тот же подход с в 100 раз большими ресурсами все еще даст сильно большее качество, чем с меньшими - большие ресурсы нужны.

Цитата:

Лидеры рынка оптимизируют существующие процессы, а disruptors переосмысливают фундаментальный подход

Как написано выше - нет, это хорошоее использование имеющихся техник.

В целом, товарищи, безусловно, молодцы, но какой-то революции - по нынешним меркам - не видно.

Rasool · 20/09/09 2144 Уфа

Rasool в сообщении #1671675 писал(а):

https://t.me/web3nity_channel/1012
Я в твиттере не зареган поэтому оригинал не могу проверить, доверяюсь каналу в телеге опубликовавшим этот перевод:

Означает ли это, что эра ИИ наступила не только для крупных центров вроде США, Москвы, но и для таких провинциальных городов, как Уфа с их скромными ресурсами? Хотя у нас в городе есть по крайней мере два суперкомпьютера.

mihaild · 16/07/14 9737 Цюрих

Rasool в сообщении #1671688 писал(а):

Означает ли это, что эра ИИ наступила не только для крупных центров вроде США, Москвы, но и для таких провинциальных городов, как Уфа с их скромными ресурсами?

Что такое "эра ИИ для Уфы"? При современной связи где хостится модель - неважно для большинства приложений. Мой телеграмм-бот, внутри зовущий Gemini, успешно хостится на виртуалке за 5 долларов в месяц. Для каких уникальных задач Уфе нужно учить свою модель? Или для каких её задач стоимость 10 долларов за токен это дорого, а 1 нормально?

Научный форум dxdy

Новости ИИ

Кто сейчас на конференции