Здравствуйте.
Я сейчас заканчиваю учебу в университете и работаю над дипломной работой по теме "Извлечение информации о почтовом адресе из его текстового представления", одной из сильных сторон моей работы (во всяком случае я делал на нее упор) я считаю скорость и стойкость к возмужениям во входных данных: опечатки, пропуски букв, орфорграфические ошибки и сокращения топографических наименований.
Прототип программы готов, всё замечательно, на различных искуственных примерах она ведёт себя очень хорошо, но встал вопрос о получении репрезентативной тестовой выборки для описания результатов экспериментальных исследований. Злосчастный закон "О персональных данных" закрыл сразу же доступ к различным архивам и т.п., где могут храниться рукописные записи с адресами (в рукописных вероятность ошибки больше), в которых могли бы естественным образом проявляться вышеозначенные эффекты. Рыскать на просторах сети бесполезно: как правило все справочники содержат в себе достаточно точное написание, за очень редким исключением.
Поэтому прошу совета, как быть в данной ситуации? Где взять данные? Я могу, конечно, искусственно надобавлять туда ошибок и опечаток, но боюсь это будет не совсем то, ведь я в конце концов знаю как работают мои алгоритмы.
P.S.: все адреса всё равно пройдут предобработку, потому что в моей работе достаточно строгие ограничения на формат входных данных, он редко встречается "в природе" :)
P.P.S.: долго думал, куда опубликовать, решил-таки в computer science.
|