Классификация и экспериментальное исследование современных алгоритмов нечеткого словарного поиска
Бойцов Леонид Моисеевич
Яndex
itman@yandex.ru
(2004)
http://www.impb.ru/~rcdl2004/cgi/get_pa ... cgi?pid=27
Аннотация
Цель данной работы заключается в
классификации и экспериментальном
сравнении существующих алгоритмов
нечеткого словарного поиска.
Нами были реализованы и протестированы
алгоритм последовательного перебора,
модификации n-граммный алгоритмов, trie-
деревья, метрические деревья, kd-деревья, а
также менее распространенные сигнатур–
ные алгоритмы.
В отличие от большинства других работ мы
тестируем не только скорость поиска в
индексе, загруженном в память, но и
скорость чисто дискового поиска, когда
индекс считывается непосредственно с
диска.
********************************************************************
Similarity Search in High Dimensions via Hashing
Aristides Gionis, Piotr Indyk, Rajeev Motwani
(1999)
http://citeseer.ist.psu.edu/rd/80602428 ... larity.pdf
Тут хеш-функции строятся так, что чем меньше расстояние между двумя
векторами, тем больше вероятность того, что значения хеш-функций на
этих векторах совпадают.