Подавление сложного шума

dereyly · 12/01/08 4

Задача следующая с мобильного устройства делается снимок текста, фотокамера на сотовом плохая и порождает много шума. ближе всего этот шум к гаусовскому. Я создаю маску и сегментирую строчки текста. Можо выделить шум в чистом виде: участок где нет характерных черт, т.е. сама страница (изначально белая).
1. какие есть хорошие способы борьбы с таким шумом...
2. Как апроксемировать текстуру шума (построить модель шума) и соответственно удалить его.

Т.е. хотелось бы использовать эвристики а не удалять НЧ и ВЧ. Я уже пробовал многие методы не учитывающие распределение шума такие как медианные фильтрации, частотные фильтрации, ВЧ фильтры,итерационные фильтры, анизотропная фильтрация. Простые корреляционные методы с построением гаусовской модели шума

ЗЫ: Размытия недопустимы!
Пример изображений

Zai · 11/04/07 1352 Москва

dereyly писал(а):

Задача следующая с мобильного устройства делается снимок текста,

Пока Вы будите разрабатывать алгоритмы распознавания, число мегапикселей возрастет и эта проблема снимется сама собой. К тому же и процессор на мобильниках слаб для распознавания образов.
Вместе с тем Ваша постановка задачи интересна и может быть разрешена не распознаванием одного символа, а слова в целом на манер, как предлагается подсказка в сотовых телефонах. Что-то типа распознавания иероглифов. Из Ваших контрастных обработок снимков видно, что слова имеют разделение. Число символов также может быть детерминировано. Осталось только определить моменты инерции слов( возможно и более высших порядков). Моменты инерции по всей видимости нужно считать цветными( контрастность использовать только для определения площади слов).

Igor Borovikov · 25/01/06 102

Да, приведенные примеры картинок уж очень шумны... В астрономии с проблемой шума при малом свете борются с помощью stacking'а - т.е. несколько экспозиций совмещаются и накладываются друг на друга. При этом отношение сигнала к шуму улучшается известным образом. Две-четыре экспозиции должны улучшить результат распознавания весьма заметно. На мой взгляд это единственный приемлемый путь. Конечно, несколько экспозиций означают больше возни для пользователя.

Распознавание слов, конечно, тоже имеет смысл, но при этом надо хранить словарь, знать какой язык мы распознаем и т.п. То есть на этом пути тоже хватит технических сложностей.

e2e4 · 21/03/06 1545 Москва

Igor Borovikov писал(а):

В астрономии с проблемой шума при малом свете борются с помощью stacking'а - т.е. несколько экспозиций совмещаются и накладываются друг на друга. При этом отношение сигнала к шуму улучшается известным образом. Две-четыре экспозиции должны улучшить результат распознавания весьма заметно.

Камера сотового телефона, не имея настоящей вспышки, итак производит большое кол-во съемок, микшируя их потом с помощью цифровых методов для увеличения яркости. Обратите внимание, насколько "тормознутее" камера телефона работает в качестве видоискателя в затемненном помещении. Это раз.

Чтобы снимать несколько раз с последующим наложением, необходим штатив, это два. Иначе ерунда смазанная получится.

Igor Borovikov · 25/01/06 102

Уважаемый e2e4, некоторое время назад я занимался устранением смаза движения при съемке сотовым телефоном именно методом сложения нескольких экспозиций. При этом производился анализ рынка камер. Не знаю, может быть где то произошла ошибка, но во время анализа мы нашли только одну камеру которая комбинирует несколько экспозиций. Был приобретен образец. Оказалось, что в режиме комбинирования камера работала на порядок медленнее, чем в обычном режиме. То есть использование сложения изображений в режиме видоискателя кажется исключительно маловероятным.

Кстати, тот же эффект "тормознутости" наблюдается и в вебкамерах. Оба типа камер до недавнего времени были построены на дешевых не слишком быстрых и не слишком чувствительных матрицах. Причина "тормознутости" на самом деле в обычном увеличении времени экспозиции при съемке каждого отдельного кадра. Для пробы возьмите обычный хороший цифровой фотоаппрат и попробуйте поснимать в плохо освещенном помещении без вспышки. Время экспозиции будет приближаться по порядку величины к секунде или даже секундам.

Я все это к тому говорю, что я не верю в сложение изображений в обычных телефонных камерах (кроме той одной единственной, выше упомянутой). Если у Вас есть конкретные данные на эту тему, опровергающие мое потенциально ошибочное мнение, - буду очень благодарен.

Далее, Вы затронули деликатную тему - цифровой фильтр для сложения изображений со смазом и сдвигом кадра, плюс с движением объетов в кадре, выливается в довольно обширную деятельность. Мне известен по крайней мере один патент на эту тему в приложении к телефонным камерам. Могут быть и другие. То есть разработку в этой области надо делать с оглядкой на патенты, иначе при выходе на рынок со своим продуктом можно влипнуть в неприятности... Спасибо за то, что напомнили об этой стороне дела!

Кстати, вдогонку, дарю вполне "патентабельную идею" - совместить распознавание текста с распознаванием речи. В телефоне, очевидно, есть микрофон. Слова, которые программа не смогла распознать из изображения, можно просить пользователя прочитать вслух и распознать "на слух". Распознавание речи - весьма подвинутая область и совмещение двух типов распознавания может оказаться неплохим решением.

e2e4 · 21/03/06 1545 Москва

Igor Borovikov писал(а):

Уважаемый e2e4, некоторое время назад я занимался устранением смаза движения при съемке сотовым телефоном именно методом сложения нескольких экспозиций. При этом производился анализ рынка камер. Не знаю, может быть где то произошла ошибка, но во время анализа мы нашли только одну камеру которая комбинирует несколько экспозиций. Был приобретен образец. Оказалось, что в режиме комбинирования камера работала на порядок медленнее, чем в обычном режиме. То есть использование сложения изображений в режиме видоискателя кажется исключительно маловероятным.

Кстати, тот же эффект "тормознутости" наблюдается и в вебкамерах. Оба типа камер до недавнего времени были построены на дешевых не слишком быстрых и не слишком чувствительных матрицах. Причина "тормознутости" на самом деле в обычном увеличении времени экспозиции при съемке каждого отдельного кадра.

Я может быть не эксперт в этой области, и мое мнение об эффекте торможения при падении освещенности у веб- и телефоно- камер вполне может быть ошибочно, но я совершенно не понимаю, что значит понятие "экспозиция" применительно к цифровым светочувствительным матрицам. Представляю я себе их как некоторый "бутерброд" из миниатюрных фотоэлементов, которые под действием света опредленной волны меняют свое электрическое состояние таким образом, чтобы это возможно было потом считать с помощью АЦП. Менять они могут состояние своего транзистора, потенциал, сопротивление - я не вдавался в такие тонкости, и не знаю точно, что к чему. Но важно то, что матрица - это не пленка. Она не засвечивается постепенно под действием света, а меняет сосотояние светочувствительных элементов оч. быстро. Таким образом, по моему мнению, само понятие экспозиции к цифровым фотоаппаратам не применимо, и реализуется искусственно путем считывания матрицы несколько раз и, например, суммированием состояний отдельных пикселей.
Если Вы считаете, что я неправ, расскажите пожалуйста о своей версии, было бы довольно интересно получить информацию по данному предмету.

Igor Borovikov писал(а):

Я все это к тому говорю, что я не верю в сложение изображений в обычных телефонных камерах (кроме той одной единственной, выше упомянутой). Если у Вас есть конкретные данные на эту тему, опровергающие мое потенциально ошибочное мнение, - буду очень благодарен.

Вера - это вера, а технология - довольно простая вещь - то, что было придумано человеком, другой человек и познать может совершенно точно.
Конкретно, не понимаю, что Вас смущает - в современные телефоны уже давно ставятся процессоры, справляющиеся с декодированием divx (я говорю о коммуникаторах) разрешения 640x480. Простая обработка попиксельно изображения размером с разрешение экранчика в реальном времени - вещь посильная даже гораздо более слабенькому процессору, не говоря уже о том, что бывают и специализированные чипы - один пример я знаю. Сейчас марку точно не назову, было это лет 5(!) назад, довольно бюджетная мыльница... так вот, в нее вставили спец. чип, который позволял, помимо всяких разных примочек дурного (с моей т.з.) вкуса, делать следующее: один человек фоткал второго, потом они менялись местами, фотка накладывалась в реальном времени на текущую картинку полупрозрачно, и можно было добиться довольно точного попадания фона, и второго человека, стоящего рядом с тобой. После съемки - две фотки микшировались окончательно - и вуаля - два человека стоят рядом, как будто так и было при съемке

.

Igor Borovikov писал(а):

Далее, Вы затронули деликатную тему - цифровой фильтр для сложения изображений со смазом и сдвигом кадра, плюс с движением объетов в кадре, выливается в довольно обширную деятельность. Мне известен по крайней мере один патент на эту тему в приложении к телефонным камерам. Могут быть и другие. То есть разработку в этой области надо делать с оглядкой на патенты, иначе при выходе на рынок со своим продуктом можно влипнуть в неприятности... Спасибо за то, что напомнили об этой стороне дела!

Вы сами это себе напомнили

. Я просто предложил решать проблемы более приземленным путем - с помощью штатива например.

Igor Borovikov писал(а):

Кстати, вдогонку, дарю вполне "патентабельную идею" - совместить распознавание текста с распознаванием речи. В телефоне, очевидно, есть микрофон. Слова, которые программа не смогла распознать из изображения, можно просить пользователя прочитать вслух и распознать "на слух". Распознавание речи - весьма подвинутая область и совмещение двух типов распознавания может оказаться неплохим решением.

Да, идея может оказаться интересной, хотя... я бы просто придумал бы такой формат хранения информации, чтобы распознанные слова хранились в текстовом виде, а нераспознанные - в виде маленькой, сжатой картинки-вставки, причем несколько съемок этого места. А на большом компе можно было бы распознать все окончательно.

Вообще, как совершенно правильно заметил Zai, в данный момент дешевле бывает поставить в 10, 100 раз больший объем памяти, в 10, 100 раз более быстрый процессор, чем морочиться с хитрыми алгоритмами. Пока этот подход дает более существенные результаты. В будущем, когда человечество упрется в очередной технологический предел, мы на время опять обернемся в сторону оптимизации кода и интересных алгоритмов.

Igor Borovikov · 25/01/06 102

e2e4 писал(а):

Если Вы считаете, что я неправ, расскажите пожалуйста о своей версии, было бы довольно интересно получить информацию по данному предмету.

К сожалению, у меня нет "своей версии". Есть только общепринятая "версия", с которой можно легко ознакомиться поиском на интернете по ключевым словам CMOS и CCD. Уверен, что Вы найдете еще более информативные ссылки, чем я.

По моему, дискуссия уходит в сторону.

Если бы такая задача стояла перед мной, то я действительно начал бы с понижения шума путем стекинга. Далее, меньше определенного уровня шум понизить практически не удастся. То есть распознавание так или иначе надо будет проводить по зашумленной картинке. Устранять шум - отдельная большая задача. Но если нужно распознать текст то удаление шума, как отдельный шаг алгоритма, мне кажется избыточным. Надо сразу переходить к распознаванию. Интернет-поиск на распознавание в условиях высого шума дает массу ссылок. Ясно только что необходима будет фаза обучения алгоритма т.к. условия съемки (освещение, размер фонта и его тип, качество бумаги) будут каждый раз разными.

Если dereyly уточнит что же нужно в результате - таки действительно удалять шум или можно сразу распознавать текст, то можно будет двигаться дальше.

dereyly · 12/01/08 4

Цитата:

Если dereyly уточнит что же нужно в результате - таки действительно удалять шум или можно сразу распознавать текст, то можно будет двигаться дальше.

Нужно распознавать... Есть такой прибор как C-Pen и остальные приборы но забугорные... В принципе прикольная штука для интерактивного воздействия с письменной информацией. читаешь статью на английсеом выделил слово и на компе можно получить перевод или определение. Так вот идея заключается в замене такого прибора на софт в коммуникаторе....

Цитата:

Если бы такая задача стояла перед мной, то я действительно начал бы с понижения шума путем стекинга.

Как я понимаю это наложение кадров... к сожалению это будет неудобно для пользователя =(

Цитата:

Да, идея может оказаться интересной, хотя... я бы просто придумал бы такой формат хранения информации, чтобы распознанные слова хранились в текстовом виде, а нераспознанные - в виде маленькой, сжатой картинки-вставки, причем несколько съемок этого места.

кажется в pdf файлах такое встречал

Igor Borovikov у вас получилось что нибудь в сфере debluring'а, или можете мне патент выслать dereyly@list.ru

Igor Borovikov · 25/01/06 102

Цитата:

Так вот идея заключается в замене такого прибора на софт в коммуникаторе....

Примерно понятно, вместо сканера - матрица телефонной камеры... То есть подразумевается, что все таки мы рассчитываем на мощу настольного компьютера, а не на слабосильный процессор телефона?

Цитата:

Как я понимаю это наложение кадров... к сожалению это будет неудобно для пользователя =(

Да, это безусловно лишняя возня для пользователя, удвоение или учетверение времени сканирования. Но, признаюсь честно, я не взялся бы за распознавание с картинок, которые Вы выложили. Будет очень много ошибок распознавания. А не пробовали наезжать поближе, снимать полстраницы? Тогда шансы на успешное распознавание улучшаются.

Цитата:

кажется в pdf файлах такое встречал

Я бы не стал мудрить и использовал бы HTML.

Цитата:

Igor Borovikov у вас получилось что нибудь в сфере debluring'а, или можете мне патент выслать dereyly@list.ru

Патент этот будет для Вас, в общем, бесполезен и избыточен. Он для съемки общего вида сцен с движущимися относительно друг друга объектами и движущейся камерой. В Вашем случае достаточно будет подгонять аффинное (проективное, в крайнем случае) преобразование. Но, так как мы пришли к выводу, что сложение картинок не практично, то и это не понадобится. Надо искать другие пути, не используя сложение. Мои две копейки - в данной ситуации я бы требовал от пользователя снимать крупнее. Опять это дополнительная суета для пользователя, но без нее я не вижу как улучшить отношение сигнала к шуму. Надо иметь ввиду, что никакие алогритмы устранение шума путем наведения статистик и т.п. в общем случае не позволят восстановить полезный сигнал с нужной степенью надежности, т.е. чудес таки не бывает. Для теста загоните свои данные вот в этот пакет http://jocr.sourceforge.net/ и посмотрите что будет...

dereyly · 12/01/08 4

Цитата:

Для теста загоните свои данные вот в этот пакет http://jocr.sourceforge.net/ и посмотрите что будет...

посмотрел я опенсорсный проект... вроде не распознает... так как под виндой там интерфейса нет, то несовсем понятно как менять настройки... к тому же сфоткать английский текст проблематично так как камера не моя... у меня слишком плохое качество (оптика).
Я еще пробовал запускать FineReader, SimpleOCR (Google opensource) и еще что то с sourceforge .... безрезультатно =)

Igor Borovikov · 25/01/06 102

Безрезультатно - в смысле не распознает или не ест? Попробую для теста своим Razr-ом какой нибудь текст сфотографировать, как только будет минутка.

dereyly · 12/01/08 4

С удовольствием посмотрел бы снимки с текстом с вашего мобильного... =)

Igor Borovikov · 25/01/06 102

http://picasaweb.google.com/igor.borovi ... orOCRTests
- изображния получились не в фокусе, со смазом и с шумом как от матрицы так и от суровой компрессии в jpeg. Несколько лучше результаты получились при съемке 2 мегапиксельной вебкамерой (не выложил), но даже и они были пратически нечитаемыми.

Попытки руками сложить несколько изображений из тестовых снятых Razr-ом ничего хорошего тоже не дали.

А вообще, действительно интересная и весьма практическая задача - вводить документы в компьютер с помощью гаджетов потребительского уровня. Ведь использовать сканер долго да и не всегда возможно. Если что то на эту тему еще придет в голову - поделюсь.

Igor Borovikov · 25/01/06 102

На прошлой неделе на Game Developers Conference Рей Крузвейл показывал телефон, который читает вслух любой текст, который видит телефонная камера. Область примения - для слепых людей; работает для чтения меню в ресторане, вывесок на улицах и т.д. Демонстрация выглядела весьма убедительно, то есть задача уже решена на практическом уровне (или близко к нему). Но вот только у меня есть сильное подозрение, что камера была достаточно крутая, так же как и сам телефон был не совсем простой потребительской моделью... :-)

Научный форум dxdy

Подавление сложного шума

Кто сейчас на конференции