Выделение образа на картинке

Igor Borovikov · 03.05.2006, 18:28

Цитата:

А что делать, если картинка цветная?

Все то же самое - надо получить картинку с выделенными и вычищенными границами. Это делается независимо по каждому каналу, затем или усредняется или берется максимум (как в фотошопе). Цель - иметь изображение границ в 256 серых тонах или, что еще лучше, бинарное (черно белое) изображение границ.

ЖВМ и МФ, вероятно, Журнал Вычислтельной математики и мат физики? Подозреваю, есть места для более продуктивного поиска алгоритмов сегментации, это во первых. Во вторых, речь о сегментации движения вообще здесь не идет. В качестве альтернативы, сделайте поиск в гугле по color segmentation или image segmentation. Еще стоит поиcкать по algorithms of optical character recognition. Почти в каждом забугорном университете есть кафедра занятая подобными вещами, профессора там содержат обширные веб страницы со своими лекциями и лабами. Что то полезное наверняка всплывет уже с первой страницы гугловских результатов.

Вот несколько таких ссылок:

http://www.cfar.umd.edu/~kanungo/course/course1.html
http://jocr.sourceforge.net/ - отсюда даже код кое какой можно наверное позаимствовать
http://www.ccs.neu.edu/home/feneric/charrec.html

ну и т.д.

А вообще было бы интересно посмотреть на Ваши картинки живьем. Eсли это возможно, не выложите парочку на zalil.ru в оригинальном формате и разрешении?

antoshka1303 · 03.05.2006, 22:03

Здесь одна из картинок
http://slil.ru/22732571

Igor Borovikov · 04.05.2006, 05:05

Спасибо, с живой картинкой проблема стала гораздо понятнее.

Сразу бросилось в глаза, что картинка получена с видеокамеры и потому имеет интерлейс. От него лучше бы избавиться. В ФШ для этого есть специальный фильтр. Если его лень изучать и имплементировать, то придется работать на ужатых вдвое картинках. Но это даже неплохо, т.к. ускорит алгоритм.

Вот что я делал с картинкой. В Фотошопе на оригинальной картинке (после деинтерлейса) я запустил медианный фильтр с радиусом 3 (параметр метода, подбирается вручную), затем запустил Edge фильтр. Затем сделал инверсию (границы стали белыми) и с помощью curves отсек все пикселы темнее 0.6 (еще один параметр, тоже ручной подбор). Все что получилось спас в grayscale файл. Эти процедуры, понятное дело, Вам придется запрограммировать, но дело это нехитрое.

Чтоб сократить поиск по всей картинке, я, во первых, уменьшил ее разрешение вдвое (важно делать это гладко, а не простым выкидывание строк или столбцов). Во вторых, сделал маску для сокращения поиска следующим способом. Сначала сосчитал суммы пикселей по строкам и столбцам. Потом оставил только строки (и, соотвественно, столбцы) в которых сумма была больше среднего взятого с некоторым коэффициентом (у меня получилось 0.3, это параметр метода, подбирать вручную). Таким образом удалось отсечь примерно половину картинки. Подозреваю что этот результат можно легко улучшить (оставляю место для Вашего творчества :-)

)

Затем я заготовил образцы цифр от 0 до 9 – напечатал в фотошопе жирным шрифтом, примерно нужного размера, и построил их границы. Спас их все в отдельные файлы.

После всего этого по оставшимся пикселам я начал перебор и поиск наилучшей корреляции с образцами. Найденные цифры из картинки удалялись.

Оставшиеся длинные горизонтальные линии сильно коррелировали с семеркой. Поэтому мой совет с помощью преобразования Хафа (Hough) от них избавиться теперь мне кажется вполне оправданным. Цифры уверенно находились даже при одной только вариации масштаба. Не нашлась только цифра 4 – для нее всеж был нужен поворот.

Программа была на Python 2.4 с использованием PIL. Программирование заняло примерно два часа, включая рисование картинок и т.п. и т.д. Работала она не быстро даже на уменьшенной картинке, но все цифры кроме 4 нашла. К сожалению, False positives на семерку нашлись тоже в избытке, но по их поводу применяйте уже упомнятного Хафа.

Успехов.

antoshka1303 · 04.05.2006, 20:20

что такое интерлейс?
И такой вопрос. В русскоязычном вариатне есть метериалы по ЖВМ или что-то подобное?

Igor Borovikov · 05.05.2006, 08:22

Интерлейс это когда камера записывает (или показывает) четные строки картинки в один квант времени, а нечетные в следующий. Визуально это приводит в тому, что на статической картинке на краях объекта видна "пила" - за промежуток между двумя квантами строки на движущихся объектах слега сместились. Хуже всего, когда камера панорамирует - тогда на всей картинке четные строки смещены относительно нечетных.

Про ЖВМ, к сожалению, сказать ничего не могу - по географическим причинам.

antoshka1303 · 27.06.2006, 14:14

PAV писал(а):

Вопрос такой - в постановке задачи требуется ли распознать цифры или их нужно только найти?

объект распознания нужно сначала найти, а потом распознать.
Я разделил задачу на 2 части. первая часть выделить образ, вторая часть опознавание образа.[/list]

PAV · 09.07.2006, 11:25

antoshka1303 писал(а):

объект распознания нужно сначала найти, а потом распознать.
Я разделил задачу на 2 части. первая часть выделить образ, вторая часть опознавание образа.

Это в общем правильно, но как правило критерий для того, является ли найденный кусок искомой картинкой, полезно совмещать с распознаванием. Правда, в Ваших примерах картинки не слишком зашумленные (по крайней мере, искомый образ легко "видится") и это возможно не понадобится.

Но вообще-то следует сделать блок, который принимает на вход кусок картинки и пытается прочесть на нем цифры. Он должен выдавать ответ и степень уверенности в этом ответе.

Первый же блок должен по каким-то более простым критериям находит эти самые куски. Они подаются на второй блок.

Суть в том, что у Вас может оказаться несколько гипотез по поводу расположения цифр и хорошо бы пытаться распознавать на каждой, если это будет приемлемо по времени. А для принятия окончательного решения пользуйтесь степенями уверенности, которые должен выдавать распознаватель.

antoshka1303 · 11.07.2006, 12:12

Вообще я планирую сделать как минимум 2 глобальные нейронные сети. Одна для выделения образа на картинке, вторая - для распознавания. Пока разработки идут неронной сети по выделению образа. Сначала избавляюсь от шума, выделяю границы, провожу морфологическое преобразование и иущу сточку(столбец)

photon · 11.07.2006, 12:34

antoshka1303 писал(а):

что такое интерлейс?

Есть и русский термин:
interlace - чересстрочная развертка

Igor Borovikov · 11.07.2006, 21:36

м.б. тогда уж "череЗстрочная"?

Someone · 11.07.2006, 21:48

Igor Borovikov писал(а):

м.б. тогда уж "череЗстрочная"?

В орфографическом словаре - череСстрочная.

Igor Borovikov · 11.07.2006, 22:03

понятно, спасибо

Научный форум dxdy

Выделение образа на картинке