нужна помощь в сканировании книг

PAV · 23.01.2006, 09:15

cepesh писал(а):

(Можно сразу загрузить в программу все страницы книги, а потом кодировать. Но это может сильно загрузить комп. Рекомендуют делать порциями страниц по 50)

По-моему это неправильно. В инструкции написано ОТКРЫВАТЬ порциями, а кодировать нужно все вместе. Насколько я понимаю суть формата, он сначала выделяет наиболее часто встречающиеся фрагменты изображений, а в дальнейшем для нового фрагмента находит наиболее похожий на него из ранее сохраненных и ссылается на него. Поскольку печатный текст состоит в основном из повторяющихся фрагментов, то это и дает существенную экономию.

Если кодировать порциями по 50 страниц, то придется в каждой порции заново искать фрагменты и заново их кодировать. Таким образом, объем файла при этом может оказаться сильно выше.

Capella · 23.01.2006, 10:08

Я поняла, кажется, в чём проблема, он грузит всё, за исключением последнего файла. Я его сделала вчера и он содержит 170 страниц. Я их гружу все вместе и после 50 где-то он начинает виснуть... Сейчас разобью его на 3-4 равные части и посмотрю что будет.
to PAV
Да, я ещё только при операции "open", а не "load"

Варяг · 23.01.2006, 17:58

Capella писал(а):

Я поняла, кажется, в чём проблема, он грузит всё, за исключением последнего файла. Я его сделала вчера и он содержит 170 страниц. Я их гружу все вместе и после 50 где-то он начинает виснуть... Сейчас разобью его на 3-4 равные части и посмотрю что будет.
to PAV
Да, я ещё только при операции "open", а не "load"

Я уже несколько лет занимаюсь созданием электронных книг. Начинал когда формата djvu ещё не было, делал в вордовском формате с помощью Finereader'a.
Сейчас почти полностью перешёл на работу с форматом djvu.
Посмотреть уже сделанные книги можете на http://physicsbooks.narod.ru/, там же в разделе "Разное", лежит небольшая статья по обмену опытом по сканированию, с удовольствием отвечу на Ваши вопросы. Евгений.[/url]

cepesh · 23.01.2006, 21:12

Numerical Analysis for Integral and Related Operator Equations - Prossdorf S., Silbermann B.
http://webfile.ru/765380

я соединил куски и добавил OCR

Capella · 23.01.2006, 22:45

Благодарю всех, кто помогал мне в создании книги и был очень терпелив со мной (оcобенно vadimir, Judge_AK и PAV) ! Только благодаря Вашей общей помощи и Вашему времени мой первый блин не вышел комом! :wink:

Ну и конечно-же тебя, Влад, я тоже очень сильно благодарю!

cepesh · 23.01.2006, 23:47

Шустро ребята работают

))
http://forum.ru-board.com/topic.cgi?for ... art=560#16

dm · 24.01.2006, 00:05

cepesh писал(а):

Шустро ребята работают

))
http://forum.ru-board.com/topic.cgi?for ... art=560#16

Просто vadimir с нашего форума - это VadimirTT с Ру-Борда. :wink:

cepesh · 24.01.2006, 00:06

не новость

Варяг · 24.01.2006, 09:29

PAV писал(а):

cepesh писал(а):

(Можно сразу загрузить в программу все страницы книги, а потом кодировать. Но это может сильно загрузить комп. Рекомендуют делать порциями страниц по 50)

По-моему это неправильно. В инструкции написано ОТКРЫВАТЬ порциями, а кодировать нужно все вместе. Насколько я понимаю суть формата, он сначала выделяет наиболее часто встречающиеся фрагменты изображений, а в дальнейшем для нового фрагмента находит наиболее похожий на него из ранее сохраненных и ссылается на него. Поскольку печатный текст состоит в основном из повторяющихся фрагментов, то это и дает существенную экономию.

Если кодировать порциями по 50 страниц, то придется в каждой порции заново искать фрагменты и заново их кодировать. Таким образом, объем файла при этом может оказаться сильно выше.

Не совсем так: попробуйте кодировать отдельные страницы книги, и Вы увидите что никакого выигрыша в сжатии, по сравнению с пакетом нет. Вероятнее всего DjvuEditor при кодировке не делает анализа всего загруженного пакета, а анализирует только текущую страницу. Т.е. для каждой страницы пакета выбирается свой алгоритм сжатия.
Для кодирования книг в формат djvu лучше устанавливать режим "Normal", т.к. режим "Без потерь" сильно увеличивает размер кодированного файла, не давая заметного выигрыша в качестве. Режим "Без потерь" более подходит для фотографий.
По поводу режима сканирования:
Для подавляющего большинства сканируемых книг вполне достаточно разрешения в 300dpi, 600 dpi применяйте для мелкого текста.
Чёрно-белый режим более компактен чем градации серого, но у него есть весьма существенные минусы:
Во-первых: качество полутоновых иллюстраций в ч-б режиме получается омерзительным.
Во-вторых: в месте неплотного прилегания книги к стеклу сканера получаются грязные чёрные полосы (текст становится совершенно нечитаемым).
В-третьих: программы распознавания текста, например Finereader, гораздо хуже распознают ч-б текст, чем текст в градациях серого. Это вызвано тем, что буквы в ч-б режиме получаются "рваными" (при большом увеличении это хорошо видно).
В подавляющем большинстве выложенных в сети книг с OCR, вместо русских букв отображаются крюкозябры. Вероятно при распознавании текста, хоть и был выбран русский язык, но не было сделано переключение на русскую раскладку клавиатуры, что неминуемо приводит к появлению крюкозябров.
Поэтому при распознавании текста в DjvuEditor'e, необходимо не только выполнение вышеназванных условий, но и должно быть исключено переключение раскладки клавиатуры, что происходит при переключении на другие приложения.
Т.е. распознавание должно происходить монопольно!

vadimir · 24.01.2006, 11:59

Варяг

Цитата:

Не совсем так: попробуйте кодировать отдельные страницы книги, и Вы увидите что никакого выигрыша в сжатии, по сравнению с пакетом нет.

Не совсем так:

, все зависит от размера страниц на словарь. По умолчанию стоит, кажется, один словарь на 10 или 20 страниц. Многочисленными

экспериментами было установлено, что если его увеличить примерно до 200 (некоторые экстремисты доходят до 1000, чтоб вся книга была охвачена), то выходной размер файла, именно при пакетном кодировании в один файл, будет на 20-30% меньше, если исходник не сильно грязный.

Цитата:

Для подавляющего большинства сканируемых книг вполне достаточно разрешения в 300dpi, 600 dpi применяйте для мелкого текста.

Исходник надо сканировать или 300dpi в градациях серого, или 600 dpi в ч/б. Можно 600 dpi в градациях серого для супер старательных, чтоб на выходе продукт был идентичен натуральному.

Цитата:

качество полутоновых иллюстраций в ч-б режиме получается омерзительным.

После обработки, я вручную вставляю полутоновые иллюстрации, геморрой конечно, а затем кодирую профилем на основе bitonal, получается вполне сносная бинаризация картинки.

Цитата:

В подавляющем большинстве выложенных в сети книг с OCR, вместо русских букв отображаются крюкозябры.

это глюк винды, я установил reg файл для лечения проблем с кириллицей (правда его уже успел потерять), и все стало отлично, никаких крякозябров.

Цитата:

при распознавании текста в DjvuEditor'e

на мой взгляд файнридер + утилита от генчо тоже заслуживает внимание для этого процесса

.

Capella
Отпишите уж тут кратенько, этапы процесса, подведение итогов так сказать, а то зайдет интересующийся неофит, и может сразу же прозреет и несколькими неряшливо сделанными книгами станет меньше

.

Capella · 24.01.2006, 14:05

Ура!!! книга уже в библиотеке! Просим заценить.

А насчёт сканирования никаких особых рекомендаций дать пока не могу. Единственно, что может быть действительно важно, так это повесить в инструкциях адрес клиента для неруссифицированных виндов.

Варяг · 24.01.2006, 16:05

vadimir писал(а):

Варяг

Цитата:

Не совсем так: попробуйте кодировать отдельные страницы книги, и Вы увидите что никакого выигрыша в сжатии, по сравнению с пакетом нет.

Не совсем так:

, все зависит от размера страниц на словарь. По умолчанию стоит, кажется, один словарь на 10 или 20 страниц. Многочисленными

экспериментами было установлено, что если его увеличить примерно до 200 (некоторые экстремисты доходят до 1000, чтоб вся книга была охвачена), то выходной размер файла, именно при пакетном кодировании в один файл, будет на 20-30% меньше, если исходник не сильно грязный.

Цитата:

Для подавляющего большинства сканируемых книг вполне достаточно разрешения в 300dpi, 600 dpi применяйте для мелкого текста.

Исходник надо сканировать или 300dpi в градациях серого, или 600 dpi в ч/б. Можно 600 dpi в градациях серого для супер старательных, чтоб на выходе продукт был идентичен натуральному.

Цитата:

качество полутоновых иллюстраций в ч-б режиме получается омерзительным.

После обработки, я вручную вставляю полутоновые иллюстрации, геморрой конечно, а затем кодирую профилем на основе bitonal, получается вполне сносная бинаризация картинки.

Цитата:

В подавляющем большинстве выложенных в сети книг с OCR, вместо русских букв отображаются крюкозябры.

это глюк винды, я установил reg файл для лечения проблем с кириллицей (правда его уже успел потерять), и все стало отлично, никаких крякозябров.

Цитата:

при распознавании текста в DjvuEditor'e

на мой взгляд файнридер + утилита от генчо тоже заслуживает внимание для этого процесса

.

Capella
Отпишите уж тут кратенько, этапы процесса, подведение итогов так сказать, а то зайдет интересующийся неофит, и может сразу же прозреет и несколькими неряшливо сделанными книгами станет меньше

.

Запросто!
1. Сканировать необходимо установив при предварительном просмотре яркость и контрастность так, чтобы изображение было хорошо различимо при минимуме "мусора" (бумага была чистого белого цвета, а текст хорошо различим).
2. Режим сканирования 300 dpi, в градациях серого.
3. Сканируйте в TIFF-формат (несжатый) с помощью программы сканирования, поставляемой с Вашим сканером, в файл на винчестере. Следующую страницу можно сканировать в этот же файл, после того как Вы добавите изображение в пакет Finereader'a.
4. Сборку отсканированных страниц лучше всего делать с помощью Finereader'a, открывая отсканированную страницу Finereader сам добавит её в пакет, и выровняет, если был небольшой перекос. Не собирайте в один пакет более 50 страниц, дабы при последующей обработке Ваш компьютер не "тормозил".
Собранные в Finereder'e страницы пакета сохраните в многостраничном TIFF-файле. DjvuEditor поддерживает такой формат.
5. Конвертируйте этот файл в djvu-формат и сохраните.
6. После того как Вы отсканировали и конвертировали всю книгу, можно приступить к её сборке. В DjvuEditor'e, в режиме редактирования, есть возможность добавлять в редактируемый файл готовые блоки djvu-формата.
Открываете первый блок, переходите к последней странице, и вставляете после неё следующий блок и т. д.
Внимание! Собранную полностью книгу сохраните под другим именем, отличающимся от имени первого открытого блока и любых других djvu-файлов в текущей папке. Если этого не сделать, то из-за глюка программы вся Ваша работа по сборке книги пойдёт прахом (в файле будет только содержимое уже существующего под таким именем на диске файла).

Judge_AK · 25.01.2006, 00:42

Варяг писал(а):

открывая отсканированную страницу Finereader сам добавит её в пакет, и выровняет, если был небольшой перекос.

А вот этого делать я не рекомендую. После такого "выравнивания" верхняя и нижняя части букв смещаются относительно друг друга.

Варяг · 25.01.2006, 07:24

Judge_AK писал(а):

Варяг писал(а):

открывая отсканированную страницу Finereader сам добавит её в пакет, и выровняет, если был небольшой перекос.

А вот этого делать я не рекомендую. После такого "выравнивания" верхняя и нижняя части букв смещаются относительно друг друга.

Мне непонятно на чём основана Ваша рекомендация: описанным способом мной сделано большинство книг. Посмотрите, например, как сделана "Механика" С. Э. Хайкина 1940 года, она лежит на [url]http://physicsbooks.narod.ru/. Никакого смещения, о котором Вы говорите не было замечено, все страницы лежат прямо, хотя выполнялось сканирование в "разворот", с одновременной их разрезкой.[/url]

Judge_AK · 26.01.2006, 17:21

Варяг писал(а):

Мне непонятно на чём основана Ваша рекомендация: описанным способом мной сделано большинство книг. Посмотрите, например, как сделана "Механика" С. Э. Хайкина 1940 года, она лежит на http://physicsbooks.narod.ru/. Никакого смещения, о котором Вы говорите не было замечено, все страницы лежат прямо, хотя выполнялось сканирование в "разворот", с одновременной их разрезкой.

Посмотрите внимательно на нижние части букв М, Н, И(смещение есть и у остальных букв, но у этих оно видно "невооруженным глазом") в слове "МЕХАНИКА" на титульном листе.
Это то самое смещение о котором я говорил. А теперь представьте, что это по всей книге.
Я говорил не о страницах, а о буквах и соответ. словах.

Научный форум dxdy

нужна помощь в сканировании книг