Имею алфавит, где-то 20 знаков.
Имею набор последовательностей (около сотни), в которых используются символы из алфавита.
Длина последовательности может достигать тысячи символов.
Как обработать последовательности, и получить регулярное выражение (или что-то похожее на него) для этих последовательностей?
Т.е. есть это:
Код:
assssbsssbcasssbsssbsssb
sssb
sssbssssb
fssssbcasssb
И получить что-нибудь вроде
Код:
f?((a?s{3,4}b)c?)+
Само регулярное выражение мне не нужно, нужна какая-то выходная структура (граф?) после обработки, гуляя по которой можно понять приблизительно из каких частей состоит последовательность.
Подскажите какие-нибудь ключевые слова, темы, которые могут быть связаны с решением такой задачи.