2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Прошу помощи в формировании тестовой выборки
Сообщение11.04.2011, 17:56 
Здравствуйте.

Я сейчас заканчиваю учебу в университете и работаю над дипломной работой по теме "Извлечение информации о почтовом адресе из его текстового представления", одной из сильных сторон моей работы (во всяком случае я делал на нее упор) я считаю скорость и стойкость к возмужениям во входных данных: опечатки, пропуски букв, орфорграфические ошибки и сокращения топографических наименований.

Прототип программы готов, всё замечательно, на различных искуственных примерах она ведёт себя очень хорошо, но встал вопрос о получении репрезентативной тестовой выборки для описания результатов экспериментальных исследований. Злосчастный закон "О персональных данных" закрыл сразу же доступ к различным архивам и т.п., где могут храниться рукописные записи с адресами (в рукописных вероятность ошибки больше), в которых могли бы естественным образом проявляться вышеозначенные эффекты. Рыскать на просторах сети бесполезно: как правило все справочники содержат в себе достаточно точное написание, за очень редким исключением.

Поэтому прошу совета, как быть в данной ситуации? Где взять данные? Я могу, конечно, искусственно надобавлять туда ошибок и опечаток, но боюсь это будет не совсем то, ведь я в конце концов знаю как работают мои алгоритмы.

P.S.: все адреса всё равно пройдут предобработку, потому что в моей работе достаточно строгие ограничения на формат входных данных, он редко встречается "в природе" :)

P.P.S.: долго думал, куда опубликовать, решил-таки в computer science.

 
 
 [ 1 сообщение ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group