2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Глюк программ кодировщиков djvu
Сообщение07.11.2006, 09:18 
При кодировке некоторых страниц программами, преобразующими графику в формат djvu, замечено, что они иногда путают русские буквы "н" и "и", меняя их по своему непредсказуемому усмотрению.
Грешат этим кодировщики DjvuEditor 4,5, 5,0, 6,0 и DEE 5.1 LE, результат одинаков: вместо слова литература получается лнтература, а вместо приложение - приложеине. Любопытно, что искажение происходит сразу после открытия нормального исходного tiff-файла, ещё до того как он был подвергнут кодированию (это в DjvuEditor).
Здесь исходный файл ч/б TIFF (174 кб):
http://physicsbooks.narod.ru/Other/oglav.tif
А здесь кодированный программой DEE 5.1 LE (4 кб):
http://physicsbooks.narod.ru/Other/oglav_1.djvu
Обратите внимание на последние строки, со словами литература и приложение.
Как избавиться от такого глюка?
Варяг.

 
 
 
 
Сообщение07.11.2006, 09:46 
Аватара пользователя
Я сейчас не помню, к сожалению точно, какой порог для мэтчинга двух паттернов выставлен и зашит ли он жестко, но по-моему, его можно менять. Обратитесь к пакету djvulibre и к кодировщикам в его составе.
Вообще, для того, чтобы не было таких глюков, буквы "и" и "н" должны выглядеть максимально различно.
Как насчет использовать 600dpi?

 
 
 
 
Сообщение07.11.2006, 10:01 
Этот глюк замечен в скачанной из интернета книге.
У себя при сканировании с 300 dpi в сером, ничего подобного не замечал. А за совет использовать djvulibre, спасибо. Обязательно попробую.

 
 
 
 
Сообщение07.11.2006, 13:33 
Аватара пользователя
Это известная фича, называется сей баг "проблема инь". Появляется на плохо сканированном материале, при нормальном подходе, как правило, не встречается.

 
 
 
 
Сообщение07.11.2006, 16:19 
vadimir писал(а):
Это известная фича, называется сей баг "проблема инь". Появляется на плохо сканированном материале, при нормальном подходе, как правило, не встречается.


Спасибо за информацию. Я этого не знал.

 
 
 
 
Сообщение13.11.2006, 22:41 
Аватара пользователя
Совершенно верно, при сканировании на 600 dpi, как правило, проблема не возникает. Кроме того, при сделанном OCR (а он делается с оригинальных сканов) это не так страшно, потому что искажённое графически слово всё равно ищется как надо.

vadimir писал(а):
Это известная фича, называется сей баг "проблема инь".

Простите за оффтоп, но мне уж очень это выражение понравилось. Слово "фича" обычно означает "преимущество" (feature), ну а "баг" --- это что-то негативное по своей сути. Так что каламбурчик забавный получился. :) Всё, больше не оффтоплю.

 
 
 
 
Сообщение13.11.2006, 22:53 
Аватара пользователя
DMVN
Ну Вы видно не в теме эникейщиков, у них есть древняя крылатая фраза "это не баг, это фича" :lol:, применительно к ошибке в программе, с которой все свыклись, или автору программы лень ее исправлять. Где то примерно так.

 
 
 [ Сообщений: 7 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group