Я перепробовал несколько вариантов, остановился в итоге на Scan Tailor`е (он бесплатный). Есть ещё Scan Kromsator, но там плохие алгоритмы определения границ страниц и текста, и в итоге приходилось их фактический вручную выставлять, Scan Tailor автоматический определяет их гораздо лучше.
Алгоритм такой: сначала все страницы сканируются в tif,
300 dpi, без сжатия, и не в чёрно-белое, а в градиентах серого (если цветные иллюстрации, то эти страницы сканируются цветным).
Как пользоваться Scan Tailor`ом описывается
тут.
Далее из полученных сканов надо делать дежавю. После нескольких проб остановился на маленькой бесплатной утилитке DjVu Small - сжимает быстро и результат нормальный.
Стандартный текст и чёрно-белые (не диффузные, то есть без полутонов) иллюстрации лучше всего сжимаются с профилем Bitonal 600dpi. Для диффузных и цветных иллюстраций нужно хитрить - если вам надо, напишу как.
Потом надо сделать текстовый слой — это позволит потом искать по дежавю почти как по обычному текстовому файлу. Для этого
обработанные сканы открываю и распознаю файнридером. Потом сохраняется пакет в файнридере (в 8-м: файл->Сохранить пакет как…).
Потом использую бесплатную программу DjvuOCR. Там выбираю "Ручной режим OCR manager", в нём указываю папку с пакетом файнридера; куда сохранить файл txt (это типа словаря какого-то, потом можно удалить) и готовый файл дежавю, в который нужно вставить текстовый слой. Затем кнопка "обработка" и через несколько минут распознанный текст из пакета файнридера будет "вшит" в файл дежавю.
P.S. Вот пример на скорую руку:
http://hdd.tomsk.ru/file/zecepnqo. Здесь есть обычный текст (сжат профилем bitonal), текстовый слой, иллюстрации, сделанные вклеиванием (они изначально не были цветными). Размер страниц с текстом - килобайт по 15, с иллюстрациями - килобайт по двести.
А вот софт, который для этого использовался (кроме файнридера и Scan Tailor`а):
http://hdd.tomsk.ru/file/ckimpein. Он весь бесплатный.
Scan Tailor найти не сложно.