Топологию\дифгем тоже можно применять. Там даже многообразия Грассмана и Штифеля возникают!
можете пояснить для чего там вообще эти многообразия используются?
это вроде как называется manifold learning.
в machine learning допустим мы имеем m сэмплов и на их основе пытаемся построить "новое пространство"? т.е. мы хотим наши сэмплы туда отобразить и получить какие то "удобные свойства"? или просто в новом пространстве мы получим новую метрику? (метрику "похожести/близости" между сэмплами) (или это уже отдельное metric learning?)
ну я надеюсь я понятно объяснил, т.е. мы не хотим использовать готовую метрику, а метрика у нас должна зависеть от данных, по идее есть 2 варианта, это использовать какую то сложную формулу или отобразить наши сэмплы на какое то другое пространство и там опять использовать евклидову метрику. Вот хотелось бы узнать с какого бока тут подходят эти многообразия.
Цитата:
One of the fundamental questions of machine learning is how to compare examples. If an algorithm could perfectly determine whether two examples were semantically similar or dissimilar, most subsequent machine learning tasks would become trivial. For example, in classification settings, one would only require one labeled example per class and could then, during test-time, categorize all similar examples with the same class-label. An analogous reduction applies to regression if a continuous estimate of the degree of similarity were available.
...
A common choice of dissimilarity measure is an uninformed norm, like the Euclidean distance. Here it is assumed that the features are represented in a Euclidean subspace in which similar inputs are close and dissimilar inputs are far away. Although the Euclidean distance is convenient and intuitive, it ignores the fact that the semantic meaning of “similarity” is inherently task- and data-dependent.
...
It is therefore desirable to learn the metric (or data representation) explicitly.
Цитата:
Manifold Learning (often also referred to as non-linear dimensionality reduction) pursuits the goal to embed data that originally lies in a high dimensional space in a lower dimensional space, while preserving characteristic properties. This is possible because for any high dimensional data to be interesting, it must be intrinsically low dimensional. For example, images of faces might be represented as points in a high dimensional space (let’s say your camera has 5MP -- so your images, considering each pixel consists of three values [r,g,b], lie in a 15M dimensional space), but not every 5MP image is a face. Faces lie on a sub-manifold in this high dimensional space. A sub-manifold is locally Euclidean, i.e. if you take two very similar points, for example two images of identical twins, you can interpolate between them and still obtain an image on the manifold, but globally not Euclidean -- if you take two images that are very different --- for example Arnold Schwarzenegger and Hillary Clinton -- you cannot interpolate between them.
так вот какой прок с того что мы получаем sub-manifold который is locally Euclidean ?
чтобы точки в sub-manifold были сравнимы по евклидовой метрике? или не любые 2 точки, а только которые близки?