2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Глюк программ кодировщиков djvu
Сообщение07.11.2006, 09:18 
Заблокирован


23/01/06

586
При кодировке некоторых страниц программами, преобразующими графику в формат djvu, замечено, что они иногда путают русские буквы "н" и "и", меняя их по своему непредсказуемому усмотрению.
Грешат этим кодировщики DjvuEditor 4,5, 5,0, 6,0 и DEE 5.1 LE, результат одинаков: вместо слова литература получается лнтература, а вместо приложение - приложеине. Любопытно, что искажение происходит сразу после открытия нормального исходного tiff-файла, ещё до того как он был подвергнут кодированию (это в DjvuEditor).
Здесь исходный файл ч/б TIFF (174 кб):
http://physicsbooks.narod.ru/Other/oglav.tif
А здесь кодированный программой DEE 5.1 LE (4 кб):
http://physicsbooks.narod.ru/Other/oglav_1.djvu
Обратите внимание на последние строки, со словами литература и приложение.
Как избавиться от такого глюка?
Варяг.

 Профиль  
                  
 
 
Сообщение07.11.2006, 09:46 
Основатель
Аватара пользователя


11/05/05
4313
Я сейчас не помню, к сожалению точно, какой порог для мэтчинга двух паттернов выставлен и зашит ли он жестко, но по-моему, его можно менять. Обратитесь к пакету djvulibre и к кодировщикам в его составе.
Вообще, для того, чтобы не было таких глюков, буквы "и" и "н" должны выглядеть максимально различно.
Как насчет использовать 600dpi?

 Профиль  
                  
 
 
Сообщение07.11.2006, 10:01 
Заблокирован


23/01/06

586
Этот глюк замечен в скачанной из интернета книге.
У себя при сканировании с 300 dpi в сером, ничего подобного не замечал. А за совет использовать djvulibre, спасибо. Обязательно попробую.

 Профиль  
                  
 
 
Сообщение07.11.2006, 13:33 
Заслуженный участник
Аватара пользователя


06/08/05
414
Dolgopa
Это известная фича, называется сей баг "проблема инь". Появляется на плохо сканированном материале, при нормальном подходе, как правило, не встречается.

 Профиль  
                  
 
 
Сообщение07.11.2006, 16:19 
Заблокирован


23/01/06

586
vadimir писал(а):
Это известная фича, называется сей баг "проблема инь". Появляется на плохо сканированном материале, при нормальном подходе, как правило, не встречается.


Спасибо за информацию. Я этого не знал.

 Профиль  
                  
 
 
Сообщение13.11.2006, 22:41 
Заслуженный участник
Аватара пользователя


09/07/05
210
МехМат МГУ
Совершенно верно, при сканировании на 600 dpi, как правило, проблема не возникает. Кроме того, при сделанном OCR (а он делается с оригинальных сканов) это не так страшно, потому что искажённое графически слово всё равно ищется как надо.

vadimir писал(а):
Это известная фича, называется сей баг "проблема инь".

Простите за оффтоп, но мне уж очень это выражение понравилось. Слово "фича" обычно означает "преимущество" (feature), ну а "баг" --- это что-то негативное по своей сути. Так что каламбурчик забавный получился. :) Всё, больше не оффтоплю.

 Профиль  
                  
 
 
Сообщение13.11.2006, 22:53 
Заслуженный участник
Аватара пользователя


06/08/05
414
Dolgopa
DMVN
Ну Вы видно не в теме эникейщиков, у них есть древняя крылатая фраза "это не баг, это фича" :lol:, применительно к ошибке в программе, с которой все свыклись, или автору программы лень ее исправлять. Где то примерно так.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 7 ] 

Модератор: Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group