Сканирование книг в djvu (pdf)

Sledovatel · 01.02.2012, 16:16

Здравствуйте.
Имеется книга. Наверное, это уже обсуждалось, но как правильно отсканировать её в формат .djvu (.pdf)? Т.е. какие есть программы (бесплатные или с ограниченным сроком работы: мне только одну книгу надо сделать)? Как правильно сканировать? Сканы будут содержать сдвоенные страницы, а надо, чтобы в итоге все страницы были по отдельности. Как можно настроить ссылки из содержания?
Заранее огромное спасибо.

Flooder · 01.02.2012, 17:18

Я перепробовал несколько вариантов, остановился в итоге на Scan Tailor`е (он бесплатный). Есть ещё Scan Kromsator, но там плохие алгоритмы определения границ страниц и текста, и в итоге приходилось их фактический вручную выставлять, Scan Tailor автоматический определяет их гораздо лучше.
Алгоритм такой: сначала все страницы сканируются в tif, 300 dpi, без сжатия, и не в чёрно-белое, а в градиентах серого (если цветные иллюстрации, то эти страницы сканируются цветным).
Как пользоваться Scan Tailor`ом описывается тут.
Далее из полученных сканов надо делать дежавю. После нескольких проб остановился на маленькой бесплатной утилитке DjVu Small - сжимает быстро и результат нормальный.
Стандартный текст и чёрно-белые (не диффузные, то есть без полутонов) иллюстрации лучше всего сжимаются с профилем Bitonal 600dpi. Для диффузных и цветных иллюстраций нужно хитрить - если вам надо, напишу как.
Потом надо сделать текстовый слой — это позволит потом искать по дежавю почти как по обычному текстовому файлу. Для этого обработанные сканы открываю и распознаю файнридером. Потом сохраняется пакет в файнридере (в 8-м: файл->Сохранить пакет как…).
Потом использую бесплатную программу DjvuOCR. Там выбираю "Ручной режим OCR manager", в нём указываю папку с пакетом файнридера; куда сохранить файл txt (это типа словаря какого-то, потом можно удалить) и готовый файл дежавю, в который нужно вставить текстовый слой. Затем кнопка "обработка" и через несколько минут распознанный текст из пакета файнридера будет "вшит" в файл дежавю.

P.S. Вот пример на скорую руку: http://hdd.tomsk.ru/file/zecepnqo. Здесь есть обычный текст (сжат профилем bitonal), текстовый слой, иллюстрации, сделанные вклеиванием (они изначально не были цветными). Размер страниц с текстом - килобайт по 15, с иллюстрациями - килобайт по двести.
А вот софт, который для этого использовался (кроме файнридера и Scan Tailor`а):http://hdd.tomsk.ru/file/ckimpein. Он весь бесплатный.
Scan Tailor найти не сложно.

Sledovatel · 01.02.2012, 20:27

Flooder, огромное спасибо за подробный ответ. Попробую сделать так.

Flooder · 02.02.2012, 04:54

Если что-то непонятно будет, спрашивайте.
Пара замечаний: с 10-м файнридером DjvuOCR, кажется, не дружит.
Битональные (именно чёрно-белые, без оттенков серого) иллюстрации в Scan Tailor`е обрабатывайте на этапе вывода как черно-белые, переходить в смешанный режим, и специально выделять их как как область рисунка не нужно (но саму книжку изначально сканируйте в оттенках серого!).

photon · 02.02.2012, 12:05

была тут тема «Появилась (очередная) инструкция по созданию DjVu-книг» - кое в чем она утратила актуальность, но что-то почерпнуть можно и сейчас

Научный форум dxdy

Сканирование книг в djvu (pdf)