2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Сканирование книг в djvu (pdf)
Сообщение01.02.2012, 16:16 
Аватара пользователя


06/02/11
58
Здравствуйте.
Имеется книга. Наверное, это уже обсуждалось, но как правильно отсканировать её в формат .djvu (.pdf)? Т.е. какие есть программы (бесплатные или с ограниченным сроком работы: мне только одну книгу надо сделать)? Как правильно сканировать? Сканы будут содержать сдвоенные страницы, а надо, чтобы в итоге все страницы были по отдельности. Как можно настроить ссылки из содержания?
Заранее огромное спасибо.

 Профиль  
                  
 
 Re: Сканирование книг в djvu (pdf)
Сообщение01.02.2012, 17:18 


20/09/10
65
Я перепробовал несколько вариантов, остановился в итоге на Scan Tailor`е (он бесплатный). Есть ещё Scan Kromsator, но там плохие алгоритмы определения границ страниц и текста, и в итоге приходилось их фактический вручную выставлять, Scan Tailor автоматический определяет их гораздо лучше.
Алгоритм такой: сначала все страницы сканируются в tif, 300 dpi, без сжатия, и не в чёрно-белое, а в градиентах серого (если цветные иллюстрации, то эти страницы сканируются цветным).
Как пользоваться Scan Tailor`ом описывается тут.
Далее из полученных сканов надо делать дежавю. После нескольких проб остановился на маленькой бесплатной утилитке DjVu Small - сжимает быстро и результат нормальный.
Стандартный текст и чёрно-белые (не диффузные, то есть без полутонов) иллюстрации лучше всего сжимаются с профилем Bitonal 600dpi. Для диффузных и цветных иллюстраций нужно хитрить - если вам надо, напишу как.
Потом надо сделать текстовый слой — это позволит потом искать по дежавю почти как по обычному текстовому файлу. Для этого обработанные сканы открываю и распознаю файнридером. Потом сохраняется пакет в файнридере (в 8-м: файл->Сохранить пакет как…).
Потом использую бесплатную программу DjvuOCR. Там выбираю "Ручной режим OCR manager", в нём указываю папку с пакетом файнридера; куда сохранить файл txt (это типа словаря какого-то, потом можно удалить) и готовый файл дежавю, в который нужно вставить текстовый слой. Затем кнопка "обработка" и через несколько минут распознанный текст из пакета файнридера будет "вшит" в файл дежавю.

P.S. Вот пример на скорую руку: http://hdd.tomsk.ru/file/zecepnqo. Здесь есть обычный текст (сжат профилем bitonal), текстовый слой, иллюстрации, сделанные вклеиванием (они изначально не были цветными). Размер страниц с текстом - килобайт по 15, с иллюстрациями - килобайт по двести.
А вот софт, который для этого использовался (кроме файнридера и Scan Tailor`а):http://hdd.tomsk.ru/file/ckimpein. Он весь бесплатный.
Scan Tailor найти не сложно.

 Профиль  
                  
 
 Re: Сканирование книг в djvu (pdf)
Сообщение01.02.2012, 20:27 
Аватара пользователя


06/02/11
58
Flooder, огромное спасибо за подробный ответ. Попробую сделать так.

 Профиль  
                  
 
 Re: Сканирование книг в djvu (pdf)
Сообщение02.02.2012, 04:54 


20/09/10
65
Если что-то непонятно будет, спрашивайте.
Пара замечаний: с 10-м файнридером DjvuOCR, кажется, не дружит.
Битональные (именно чёрно-белые, без оттенков серого) иллюстрации в Scan Tailor`е обрабатывайте на этапе вывода как черно-белые, переходить в смешанный режим, и специально выделять их как как область рисунка не нужно (но саму книжку изначально сканируйте в оттенках серого!).

 Профиль  
                  
 
 Re: Сканирование книг в djvu (pdf)
Сообщение02.02.2012, 12:05 
Экс-модератор
Аватара пользователя


23/12/05
12064
была тут тема «Появилась (очередная) инструкция по созданию DjVu-книг» - кое в чем она утратила актуальность, но что-то почерпнуть можно и сейчас

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 5 ] 

Модератор: Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group