Хеш таблица для быстрого поиска по названию или его части

ilghiz · 02.01.2022, 17:35

Добрый день,

имеется волонтерская база химических веществ, в которой имеется около 100 миллионов записей. По многочисленным просьбам трудящихся, хочется в базу прикрутить удобный поиск по названию, другие способы поиска уже более-менее функционируют, на базу можно посмотреть здесь.

Каждое название вещества - это что-то типа

Цитата:

(2E,5R)-2-[3-bromo-4-(4-fluorobenzyl)oxy-5-nitro-benzylidene]-7-ethyl-3-keto-5-phenyl-5H-thiazolo[3,2-a]pyrimidine-6-carboxylic acid methyl ester

то есть строка иногда недеццкой длины. То есть хочется это хешировать по лексемам, например как

Цитата:

brom
fluor
benzyl
oxy
nitro
ethyl
keto
phenyl
thiazolo
pyrimidine
carboxylic
acid
methyl
ester

В этом случае, вышеуказанное название можно было бы по нескольким таким лексемам-хешам найти и, скорей всего бы нашлось не очень много еще альтернатив, то есть такой поиск тоже был бы удобен для пользователей.

Напрашивается для каждого названия найти все возможные комбинации слов и их кусков (то есть все с двумя, с тремя, с четырьмя и так далее буквами, но без знаков препинания), для каждого названия получить такой список, заиндексировать его, получить матрицу, в которой каждая строка соответствует веществу, а каждый столбец - хоть раз найденной лексеме и найти минимальный набор столбцов, в которых строки ни разу бы друг с другом не совпадали.

Или найти минимальный малоранговый набор столбцов (но тут будет больше неоднозначности).

Скажите, пожалуйста, какой алгоритм выбрать для поиска минимально возможного набора лексем?

Спасибо!

mihaild · 02.01.2022, 18:38

Пока не очень понятно. У вас каждое вещество представленно набором лексем, пользователь вводит тоже набор лексем, и хочется найти вещества, содержащие все указанные пользователем лексемы, без учета порядка?

aitap · 02.01.2022, 20:33

Я думаю, что это задача полнотекстового поиска. Именно SQLite использовать, может быть, и не предлагаю (хотя на редко изменяемых базах данных размером до гигабайта с хорошо построенными индексами он может летать), но саму идею обратного индекса для решения задачи поиска рекомендую.

Суть в том, что строки (и те, которые нужно искать, и те, которые ищет пользователь) тем или иным способом разбивают на слова. При работе с "человеческими" текстами их обычно обрабатывают дальше (стеммером/лемматизатором, чтобы автоматически привести слова к эквиваленту начальной формы), но здесь, возможно, достаточно применить знания о номенклатуре ИЮПАК. После этого создают таблицу, которая соотносит токены с индивидуальными номерами, а также таблицу, содержащую по строке на каждое вхождение токена в документ.

Вас интересует, как выделить наиболее важные токены, руководствуясь не априорными знаниями (стеммер/лемматизатор/ИЮПАК), а

n

-граммами (подпоследовательностями из

n

символов). Если у Вас есть возможность получить все

n

-граммы для всех формул, возможно, поможет пропустить их через tf-idf: для каждой

n

-граммы в каждой формуле посчитать частоту её встречаемости в данной формуле и поделить на (обычно логарифм) частоту встречаемости формул с данной

n

-граммой. После этого можно отобрать

n

-граммы по максимальному значению

\mathrm{tf} \cdot \mathrm{idf}

или по другому критерию. Какая-то предобработка текста точно понадобится, иначе такой подход подберёт уникальные опечатки и другие вещи, которые реальные пользователи, скорее всего, искать не будут.

Возможно, в книге Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008 Вы найдёте что-то полезное.

Geen · 03.01.2022, 00:22