vadimir писал(а):
ВарягЦитата:
Не совсем так: попробуйте кодировать отдельные страницы книги, и Вы увидите что никакого выигрыша в сжатии, по сравнению с пакетом нет.
Не совсем так:

, все зависит от размера страниц на словарь. По умолчанию стоит, кажется, один словарь на 10 или 20 страниц. Многочисленными

экспериментами было установлено, что если его увеличить примерно до 200 (некоторые экстремисты доходят до 1000, чтоб вся книга была охвачена), то выходной размер файла, именно при пакетном кодировании в один файл, будет на 20-30% меньше, если исходник не сильно грязный.
Цитата:
Для подавляющего большинства сканируемых книг вполне достаточно разрешения в 300dpi, 600 dpi применяйте для мелкого текста.
Исходник надо сканировать или 300dpi в градациях серого, или 600 dpi в ч/б. Можно 600 dpi в градациях серого для супер старательных, чтоб на выходе продукт был идентичен натуральному.
Цитата:
качество полутоновых иллюстраций в ч-б режиме получается омерзительным.
После обработки, я вручную вставляю полутоновые иллюстрации, геморрой конечно, а затем кодирую профилем на основе bitonal, получается вполне сносная бинаризация картинки.
Цитата:
В подавляющем большинстве выложенных в сети книг с OCR, вместо русских букв отображаются крюкозябры.
это глюк винды, я установил reg файл для лечения проблем с кириллицей (правда его уже успел потерять), и все стало отлично, никаких крякозябров.
Цитата:
при распознавании текста в DjvuEditor'e
на мой взгляд файнридер + утилита от генчо тоже заслуживает внимание для этого процесса

.
CapellaОтпишите уж тут кратенько, этапы процесса, подведение итогов так сказать, а то зайдет интересующийся неофит, и может сразу же прозреет и несколькими неряшливо сделанными книгами станет меньше

.
Запросто!
1. Сканировать необходимо установив при предварительном просмотре яркость и контрастность так, чтобы изображение было хорошо различимо при минимуме "мусора" (бумага была чистого белого цвета, а текст хорошо различим).
2. Режим сканирования 300 dpi, в градациях серого.
3. Сканируйте в TIFF-формат (несжатый) с помощью программы сканирования, поставляемой с Вашим сканером, в файл на винчестере. Следующую страницу можно сканировать в этот же файл, после того как Вы добавите изображение в пакет Finereader'a.
4. Сборку отсканированных страниц лучше всего делать с помощью Finereader'a, открывая отсканированную страницу Finereader сам добавит её в пакет, и выровняет, если был небольшой перекос. Не собирайте в один пакет более 50 страниц, дабы при последующей обработке Ваш компьютер не "тормозил".
Собранные в Finereder'e страницы пакета сохраните в многостраничном TIFF-файле. DjvuEditor поддерживает такой формат.
5. Конвертируйте этот файл в djvu-формат и сохраните.
6. После того как Вы отсканировали и конвертировали всю книгу, можно приступить к её сборке. В DjvuEditor'e, в режиме редактирования, есть возможность добавлять в редактируемый файл готовые блоки djvu-формата.
Открываете первый блок, переходите к последней странице, и вставляете после неё следующий блок и т. д.
Внимание! Собранную полностью книгу сохраните под другим именем, отличающимся от имени первого открытого блока и любых других djvu-файлов в текущей папке. Если этого не сделать, то из-за глюка программы вся Ваша работа по сборке книги пойдёт прахом (в файле будет только содержимое уже существующего под таким именем на диске файла).