B7_Ruslan, нереально. Поверьте тем, кто занимается этим профессионально. В одиночку за такой срок без опыта решения подобных задач (обработка данных, машинное обучение и работа с изображениями) - нереально. Перед Вами встанет большое количество задач самого разного характера, как технических, так и содержательных, каждая из которых может потребовать несколько месяцев серьезной работы. В итоге теоретически возможно, что путем неимоверных усилий Вы сумеете к сроку создать что-то работающее, но работать оно будет плохо и фактически только на обучающем материале. Это может быть станет и неплохим опытом лично для Вас, но со стороны будет смотреться скорее всего весьма кустарно. И в любом случае потребует от Вас такой самоотдачи все эти месяцы, что может в дальнейшем начисто отбить у Вас охоту к дальнейшему движению в этом направлении.
Еще нужно отметить, что данная задача требует реально
много обучающего материала. Очень много, измеряемого минимум десятками тысяч. Девочки даже с хорошим почерком Вам его не смогут обеспечить, так как уже минут через 15 непрерывного написания почерк уже будет не таким хорошим, а минут через 40 пойдут такие каракули, которые даже человек с трудом прочтет.
Пока Вы не очень представляете себе ни специфики задачи, ни свои возможности в этой задаче, лучше ставить перед собой более скромные и реальные цели, а достигнув их - двигаться дальше.
Рекомендую для начала заняться более простыми задачами. Поищите такие, которые описаны в литературе. Для многих стандартных задач можно найти учебные базы данных, на которых можно учить системы. В статьях Вы найдете подходы, которые можно будет применить, если у Вас возникнут сложности. Это даст Вам хороший список литературы, что повысит работу в глазах критиков. Кроме того, на таких задачах Вы сможете сравнить эффективность Вашего метода с известными результатами, что всегда полезно - хоть какая-то объективная оценка. Когда Вы будете защищать работу, то Вас обязательно спросят о том, как соотносятся Ваши результаты с известными.
В качестве хорошей задачи могу предложить, например, распознавание отдельных рукописных цифр. По
этой ссылке Вы найдете базу данных для обучения: 60 тысяч train и 10 тысяч test images. Также приводится таблица результатов разных авторов на этой базе: начиная от 12% ошибки в 98 году и заканчивая десятыми долями процента ошибки в этом году. Можете попробовать за 2-3 месяца поработать с этой базой вслепую, не читая описаний походов других, и посмотреть, чего получится добиться. Если ничего не будет получаться, то всегда остается возможность взять статьи, которые тут же приведены, и реализовать подходы, примененные авторами. Кроме того, Вы наверняка найдете еще базы данных, которые можно добавить к этой для лучшего обучения.
Можете поискать и другие задачи, но в любом случае настоятельно советую в качестве ориентира брать такие, к которым уже есть базы данных и какие-то подходы и известные результаты, с которыми можно сравниваться.
Успехов.
-- Сб окт 03, 2009 19:31:57 --Если у Вас быстро получится успешно решить данную задачу, то можно будет ее усложнить, приближая к реальным условиям. Например, наложить на изображение различные шумы различного характера. А также - распознавать последовательности цифр (это будет уже ближе к задачам работы с реальным текстом), например, денежные суммы на платежных документах.