Ну звучит то (первая фраза) очень хорошо. Взял готовую модель, и вперед. Потом выясняется, что 10 минут Вам не хватит
10 минут хватит на то, чтобы сделать то, что готовые модели делать умеют. Ничего нового LLM сюда не вносят.
А мне хватит двух минут, чтобы сформулировать вопрос чат-боту
Для Visual Question Answering LLM не нужны. Я не знаю, умеют ли они сейчас решать задачи вроде предложенной
Dedekind, но если не умеют - интеграция их с LLM ничего не даст.
Чатбот может быть удобным интерфейсом. Но те, кто им будет пользоваться, всё равно модели сейчас не разрабатывают. А те, кто разрабатывают - ну будут разрабатывать немного другие, что изменится-то?
Ну я думал, что как бэ очевидно, что я говорю о количестве типов в классификации
Как бэ когда говорят "работают на определенном количестве картинок" мне очень сложно прочитать это как "классифицируют на определенное количество классов".
Есть модели, которые по картинке генерируют текстовое описание.
Где? процитируйте.
Выше уже цитировал.
Если этот чат-бот также хорошо будет определять, что на картинке, как и болтает, целая отрасль - компьютерное зрение - рухнет?