Прошу помощи в формировании тестовой выборки

restart · 11.04.2011, 17:56

Здравствуйте.

Я сейчас заканчиваю учебу в университете и работаю над дипломной работой по теме "Извлечение информации о почтовом адресе из его текстового представления", одной из сильных сторон моей работы (во всяком случае я делал на нее упор) я считаю скорость и стойкость к возмужениям во входных данных: опечатки, пропуски букв, орфорграфические ошибки и сокращения топографических наименований.

Прототип программы готов, всё замечательно, на различных искуственных примерах она ведёт себя очень хорошо, но встал вопрос о получении репрезентативной тестовой выборки для описания результатов экспериментальных исследований. Злосчастный закон "О персональных данных" закрыл сразу же доступ к различным архивам и т.п., где могут храниться рукописные записи с адресами (в рукописных вероятность ошибки больше), в которых могли бы естественным образом проявляться вышеозначенные эффекты. Рыскать на просторах сети бесполезно: как правило все справочники содержат в себе достаточно точное написание, за очень редким исключением.

Поэтому прошу совета, как быть в данной ситуации? Где взять данные? Я могу, конечно, искусственно надобавлять туда ошибок и опечаток, но боюсь это будет не совсем то, ведь я в конце концов знаю как работают мои алгоритмы.

P.S.: все адреса всё равно пройдут предобработку, потому что в моей работе достаточно строгие ограничения на формат входных данных, он редко встречается "в природе" :)

P.P.S.: долго думал, куда опубликовать, решил-таки в computer science.

Научный форум dxdy

Прошу помощи в формировании тестовой выборки