2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Эмбендинги и их аналог в распознавании образов
Сообщение02.11.2025, 16:39 
Думаю не секрет, что роль эмбендингов в LLM велика, но что насчет распознавания образов? Кто-то пытался применять слои эмбендингов после входа и перед выходом, или их аналоги и как это делали?

 
 
 
 Re: Эмбендинги и их аналог в распозновании образов
Сообщение02.11.2025, 16:52 
Аватара пользователя
Не просто пытались, это мейнстрим. Как минимум все основные современные генераторы картинок/видео работают в латентном пространстве.

 
 
 
 Re: Эмбендинги и их аналог в распознавании образов
Сообщение02.11.2025, 17:51 
mihaild в сообщении #1708076 писал(а):
Не просто пытались, это мейнстрим. Как минимум все основные современные генераторы картинок/видео работают в латентном пространстве.


это генераторы, как я понимаю на основе текстового запроса, я же говорю о распознавании, задачи аналогичные MNIST

 
 
 
 Re: Эмбендинги и их аналог в распознавании образов
Сообщение02.11.2025, 18:25 
Аватара пользователя
tac в сообщении #1708084 писал(а):
это генераторы, как я понимаю на основе текстового запроса
Не обязательно, image-to-image, image-to-video тоже первым делом строят эмбеддинг.

За чистым распознаванием я не слежу, но, например, vision transformer, который тоже embedding-based, точно на слуху.

 
 
 
 Re: Эмбендинги и их аналог в распознавании образов
Сообщение02.11.2025, 18:45 
Тоже давно хочу с этой темой разобраться, вот что LLM про это говорит(что мне понравилось):

Цитата:
Эмбеддинг — это способ представить множество объектов в виде точек многомерного пространства, где расстояния и направления между точками отражают статистические или структурные отношения между объектами. Это не просто код, а геометрическая форма, в которой “схватывается” взаимосвязь элементов множества. Таким образом, эмбеддинг — это векторное отображение структуры данных в числовую область, где можно работать с ними с помощью обычных методов машинного обучения.

Смысловые отношения, о которых обычно говорят применительно к эмбеддингам, не являются чем-то “заданным” извне. Они возникают из процесса оптимизации — модель подбирает такие векторы, которые минимизируют ошибку при выполнении своей задачи. Например, если задача — предсказать слово по контексту, то слова с похожими контекстами будут иметь близкие векторы. “Смысл” тут — побочный эффект того, что модель научилась отражать статистические закономерности мира.

Другими словами, каждый эмбеддинг — это результат подстройки под данные с целью наилучшего предсказания наблюдаемых зависимостей. Оптимизация функционала, такого как вероятность правильного предсказания, заставляет вектора выстраиваться в пространстве так, чтобы сохранить структуру связей, заложенных в данных. Поэтому эмбеддинг можно рассматривать как форму, которую принимает пространство признаков, когда модель достигает минимума своей функции потерь.

При этом в разных задачах функционал разный: для текста — вероятность соседних слов, для изображений — совпадение с описанием, для рекомендательных систем — близость пользователей с похожими предпочтениями. В каждом случае геометрия пространства эмбеддингов отражает тип связей, которые модель должна уловить, чтобы быть точной.

В итоге эмбеддинг — это не “осмысленная сущность”, а результат оптимизационного процесса, в котором смысл возникает как структурный инвариант данных. Геометрия эмбеддингового пространства — это тень реальной топологии взаимодействий в исходном множестве объектов. То, что мы называем смыслом, на деле — статистическая регулярность, преобразованная в форму, пригодную для вычислений.


Короче говоря это как бы векторный "код", для (сложно) связанных элементов множества, в некоторой степени отражающий эти связи, достаточной для распознавания из них структур, с помощью алгоритмов машинного обучения.

 
 
 
 Re: Эмбендинги и их аналог в распознавании образов
Сообщение03.11.2025, 08:43 
mihaild в сообщении #1708088 писал(а):
vision transformer


Оставлю ссылка на оригинальную статью, для последующего разбора тут An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

-- Пн ноя 03, 2025 10:12:17 --

Если меня попросили бы дать определение эмбендинга, я наверно определил бы это как: кластеризованные понятия языка/зрения, которые используются в нейросети, как предобученые блоки весов.

И в таком случае, это будет как раз то, о чем мы говорили в теме О перцептроне Розенблатта, пытаясь определить связность (как понятие) между обучающей выборкой и тестовой.

 
 
 
 Re: Эмбендинги и их аналог в распознавании образов
Сообщение03.11.2025, 12:24 
Аватара пользователя
tac в сообщении #1708158 писал(а):
Если меня попросили бы дать определение эмбендинга, я наверно определил бы это как: кластеризованные понятия языка/зрения, которые используются в нейросети, как предобученые блоки весов
На всякий случай: эмбендинг - это Ваш способ писать embedding, или что-то другое?
Эмбеддинг в общем случае - это просто вектор, сгенерированный по данным. Получается, когда мы вкладываем - embed - множество, из которых мы берем данные, в векторное пространство. Естественно, по таком определению очень много всего становится эмбеддингами, и в настолько общем виде это понятие не очень полезно.
Один из основных вариантов - это автоэнкодеры, когда эмбеддинг строится таким образом, чтобы по нему можно было достаточно точно восстановить исходные данные.
tac в сообщении #1708158 писал(а):
пытаясь определить связность (как понятие)
Термин Ваш или относительно стандартный? Если Ваш, то лучше переименуйте, пока не поздно, это слово уже занято.

 
 
 
 Re: Эмбендинги и их аналог в распознавании образов
Сообщение03.11.2025, 15:42 
mihaild в сообщении #1708169 писал(а):
это Ваш способ писать embedding

это моя неграмотность

mihaild в сообщении #1708169 писал(а):
Эмбеддинг в общем случае - это просто вектор, сгенерированный по данным.

Этого действительно мало, это все равно что эмбеддингом назвать float[M]. Я же хочу видеть сущностное определение. И тут 3 момента:
1. Это как минимум доступ по ключу Dictionary<string, float[M]>
2. Как вы отметили, возможность восстановить, т.е. однозначное обратное приведение string ToKey(float[M])
3. Но все это неважно, если не выполняется условие кластеризации key=cat1 должен быть ближе к другим котам, чем к собакам в пространстве эмбеддингов float[N][M] , где N - число понятий/токенов, M - embedSize

 
 
 
 Re: Эмбендинги и их аналог в распознавании образов
Сообщение03.11.2025, 17:28 
Аватара пользователя
tac в сообщении #1708218 писал(а):
Я же хочу видеть сущностное определение
Извините, не подвезли. В разных работах эмбедами [по русски чаще говорят так, чем эмбеддинг] называют довольно разные вещи.
tac в сообщении #1708218 писал(а):
т.е. однозначное обратное приведение string ToKey(float[M])
И вот этому, как правило, большинство подходов не удовлетворяют.

 
 
 [ Сообщений: 9 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group