2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Прошу помощи в формировании тестовой выборки
Сообщение11.04.2011, 17:56 


18/11/07
2
Здравствуйте.

Я сейчас заканчиваю учебу в университете и работаю над дипломной работой по теме "Извлечение информации о почтовом адресе из его текстового представления", одной из сильных сторон моей работы (во всяком случае я делал на нее упор) я считаю скорость и стойкость к возмужениям во входных данных: опечатки, пропуски букв, орфорграфические ошибки и сокращения топографических наименований.

Прототип программы готов, всё замечательно, на различных искуственных примерах она ведёт себя очень хорошо, но встал вопрос о получении репрезентативной тестовой выборки для описания результатов экспериментальных исследований. Злосчастный закон "О персональных данных" закрыл сразу же доступ к различным архивам и т.п., где могут храниться рукописные записи с адресами (в рукописных вероятность ошибки больше), в которых могли бы естественным образом проявляться вышеозначенные эффекты. Рыскать на просторах сети бесполезно: как правило все справочники содержат в себе достаточно точное написание, за очень редким исключением.

Поэтому прошу совета, как быть в данной ситуации? Где взять данные? Я могу, конечно, искусственно надобавлять туда ошибок и опечаток, но боюсь это будет не совсем то, ведь я в конце концов знаю как работают мои алгоритмы.

P.S.: все адреса всё равно пройдут предобработку, потому что в моей работе достаточно строгие ограничения на формат входных данных, он редко встречается "в природе" :)

P.P.S.: долго думал, куда опубликовать, решил-таки в computer science.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ 1 сообщение ] 

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group