Вычисление коэффициента совпадения строк

grumblerbear · 28.05.2013, 13:18

Здравствуйте, уважаемые математики и не совсем математики!

Так как сам я в этой теме не силен, то прошу прощения, если создал тему не в той ветке — думаю, администратор сможет перенести ее, если что-то не так.

Задача оказалась не совсем тривиальной (по крайней мере для меня).
Приступлю к описанию:
Существует алгоритм, который нормализует строки (так скажем, минимизирует возможные опечатки в них) (алгоритм MetaPhone, адаптированный под русский язык [http://web.archive.org/web/20071107145942/http://kankowski.narod.ru/dev/metaphoneru.htm] и адаптированный мной под нужды задачи).
И существует другой алгоритм, в котором эти нормализированные строки перемалываются и вычисляются определенные переменные. На основе этих переменных нужно составить формулу, результат которой будет соответствовать идентичности строк (от 0 до 100 или от 0 до 1).

Приведу пример:

Сравниваемая строка: «ПУШКИН»
Эталонная строка «АЛИКСАНДРСИРГИИВИЧПУШКИН»

$A$ : количество похожих чанков: 5
$B$ : количество идущих подряд похожих чанков: 5
$N$ : количество несовпадающих чанков: 0
$D$ : разница в количестве чанков: 18
$E$ : количество чанков в эталонной строке: 23
$C$ : количество чанков в сравниваемой строке: 5

Пояснения: строка разбивается на чанки (части) со сдвигом на один символ. Доспустимые изменения в алгоритме - можно менять размер чанка (сейчас это 2 символа), можно менять нормализацию (например не удалять пробелы).

В случае строки «ПУШКИН», чанки получаются такими: ПУ, УШ, ШК, КИ, ИН

Мной использовались варианты:
$A \cdot 2 / (E + C)$ - плохие результаты
$A / E$ - плохие результаты
$(A + B) / (E + C)$ - средние результаты
Ну и + с различными вариациями $D$ и $N$ в формуле. Либо было неуниверсально, либо слишком далеко от реальности

Буду рад дискуссии и помощи

i	Deggial: формулы поправил, формулы оформляйте $\TeX$ ом. Инструкции по оформлению формул здесь или здесь (или в этом видеоролике).

provincialka · 28.05.2013, 22:30

А в чем все-же задача? Найти подстроку? Или еще что? Возьмите чанк длиной 6 - вот и все

grumblerbear · 28.05.2013, 22:36

Не найти. А узнать коэффициенты схожести строк и выбрать несколько самых похожих.
Например при запросе ПУШКИН у строки АЛИКСАНДРСИРГИИВИЧПУШКИН процент похожести будет в районе процентов 60. А у ДАНТЕС — 0.
Это нужно для того, чтобы я мог понять, что хочет пользователь, даже если он запросит что-то с опечатками или не полностью введет запрос.
Понимаете соль?

Кстати за правку формул спасибо тому, кто это сделал. Не думал что у вас тут все так серьезно организовано :) Но это к лучшему

arseniiv · 28.05.2013, 22:42

grumblerbear в сообщении #729455 писал(а):

$A \cdot 2 / (E + C)$ - плохие результаты
$A / E$ - плохие результаты
$(A + B) / (E + C)$ - средние результаты

Что означают «плохие» и «средние»? Это ведь как раз соль — какие результаты должны быть. Тогда будет ясно (или так и не ясно), что делать.

grumblerbear · 28.05.2013, 22:55

Выше я привел пример «предполагаемых значений».
Из всех точно известных данных: при отсутствии совпадений процент идентичности равен 0, при абсолютном совпадении строк - 100%. При этом возрастание коэффициента не должно быть линейным. Совпадающие подряд чанки должны повышать его сильнее чем просто совпадающие.

[url]http://lacony.ru/facts/metaphone/?test=ЛЮБОЙВАШТЕКСТ[/url]
Вот ссылка для примера, по которой к строкам вычисляются переменные для формулы.

provincialka · 28.05.2013, 23:03

Ваше затруднение не в формуле, а в идеологии. Вы хотите вычислить числовой коэффициент неизвестно для чего. В таких задачах надо сначала построить модель, хоть как-то формализовать желаемое, прежде, чем искать формулу. И вот этого мы за вас сделать не сможем.

arseniiv · 28.05.2013, 23:12

grumblerbear в сообщении #729787 писал(а):

Совпадающие подряд чанки должны повышать его сильнее чем просто совпадающие.

Агааа! Ну вот, значит, натяните на независимые компоненты $(A,B,N,D,E,C)$ пространство и нарисуйте там желаемую поверхность. А уже потом попробуйте её как-то формулой описать. Такое пространство, конечно, не очень наглядно, так что придётся выделить меньшее количество факторов. Например, убрать двоих из $(D,E,C)$ (один из них явно избыточен), зато поделив на них (например, на среднее их арифметическое или что-то такое) остальные.

grumblerbear · 28.05.2013, 23:21

Числовой коэффициент количества совпадений в строках.
Привожу примеры:
Две строки.

Запрошенная - 10 чанков, сравниваемая с ней (эталонная) 20 чанков.
Абсолютная идентичность - 100%
10 совпадений, 10 подряд приблизительно 65-75%
10 совпадений, 5 подряд приблизительно 45-55%
10 совпадений, из них ни одного подряд приблизительно 25-35%
Ни одного совпадения - 0%

Запрошенная - 20 чанков, сравниваемая с ней (эталонная) 20 чанков.
Абсолютная идентичность - 100%
19 совпадений, 19 подряд приблизительно 85-100%
15 совпадений, 10 подряд приблизительно 65-85%
10 совпадений, из них ни одного подряд приблизительно 15-25%
Ни одного совпадения - 0%

Примерное представляете? Примеры с Пушкиным здесь просто так. Пользователи будут искать холодильники, котят и сиськи, или что там обычно в наших интернетах ищут. Неважно.

-- 28.05.2013, 23:22 --

arseniiv в сообщении #729792 писал(а):

grumblerbear в сообщении #729787 писал(а):

Совпадающие подряд чанки должны повышать его сильнее чем просто совпадающие.

Агааа! Ну вот, значит, натяните на независимые компоненты $(A,B,N,D,E,C)$ пространство и нарисуйте там желаемую поверхность. А уже потом попробуйте её как-то формулой описать. Такое пространство, конечно, не очень наглядно, так что придётся выделить меньшее количество факторов. Например, убрать двоих из $(D,E,C)$ (один из них явно избыточен), зато поделив на них (например, на среднее их арифметическое или что-то такое) остальные.

Можете подсказать какую область теории изучать? А то я как-то с натягиванием пространства не знаком...

arseniiv · 29.05.2013, 00:52

Даже не знаю какую. Тут, вроде, никакой и нет. :roll:

Один здравый смысл — может быть, тут мы в границах его применимости.

Ага, вот вы привели некоторые значения функции от $(E,C,A,B)$ . Попробуйте теперь избавиться от раздельной её зависимости от $E$ и $C$ , а так же от $A$ и $B$ — может, это осмысленно. Попробуйте, например, сделать функцию от $C/E$ и $B/A$ , каждый параметр лежит в $[0; 1]$ , как и результат. И рисовать линии уровня на квадрате $[0; 1]\times [0; 1]$ несложно.

Если такая модель никак не позволяет добиться желаемого, пошевелите её немного. Добавьте нелинейности.

grumblerbear · 29.05.2013, 01:18

Спасибо огромное. Попытаюсь.

Если у кого-то из читателей есть хотя бы примерное представление подобных наработок, то был бы рад узнать, где это все можно изучить.

grumblerbear · 29.05.2013, 13:29

Пока остановился на формуле $((A / C \cdot (1/3)) + (B / C \cdot (2/3)) - (N / C \cdot (1/10)) - (D / E \cdot (1/10))) \cdot 100$

Научный форум dxdy

Вычисление коэффициента совпадения строк