2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу Пред.  1, 2, 3, 4, 5, 6 ... 14  След.
 
 
Сообщение23.01.2006, 09:15 
Аватара пользователя
cepesh писал(а):
(Можно сразу загрузить в программу все страницы книги, а потом кодировать. Но это может сильно загрузить комп. Рекомендуют делать порциями страниц по 50)


По-моему это неправильно. В инструкции написано ОТКРЫВАТЬ порциями, а кодировать нужно все вместе. Насколько я понимаю суть формата, он сначала выделяет наиболее часто встречающиеся фрагменты изображений, а в дальнейшем для нового фрагмента находит наиболее похожий на него из ранее сохраненных и ссылается на него. Поскольку печатный текст состоит в основном из повторяющихся фрагментов, то это и дает существенную экономию.

Если кодировать порциями по 50 страниц, то придется в каждой порции заново искать фрагменты и заново их кодировать. Таким образом, объем файла при этом может оказаться сильно выше.

 
 
 
 
Сообщение23.01.2006, 10:08 
Аватара пользователя
Я поняла, кажется, в чём проблема, он грузит всё, за исключением последнего файла. Я его сделала вчера и он содержит 170 страниц. Я их гружу все вместе и после 50 где-то он начинает виснуть... Сейчас разобью его на 3-4 равные части и посмотрю что будет.
to PAV
Да, я ещё только при операции "open", а не "load"

 
 
 
 Обмен опытом по сканированию
Сообщение23.01.2006, 17:58 
Capella писал(а):
Я поняла, кажется, в чём проблема, он грузит всё, за исключением последнего файла. Я его сделала вчера и он содержит 170 страниц. Я их гружу все вместе и после 50 где-то он начинает виснуть... Сейчас разобью его на 3-4 равные части и посмотрю что будет.
to PAV
Да, я ещё только при операции "open", а не "load"


Я уже несколько лет занимаюсь созданием электронных книг. Начинал когда формата djvu ещё не было, делал в вордовском формате с помощью Finereader'a.
Сейчас почти полностью перешёл на работу с форматом djvu.
Посмотреть уже сделанные книги можете на http://physicsbooks.narod.ru/, там же в разделе "Разное", лежит небольшая статья по обмену опытом по сканированию, с удовольствием отвечу на Ваши вопросы. Евгений.[/url]

 
 
 
 
Сообщение23.01.2006, 21:12 
Аватара пользователя
Numerical Analysis for Integral and Related Operator Equations - Prossdorf S., Silbermann B.
http://webfile.ru/765380

я соединил куски и добавил OCR

 
 
 
 
Сообщение23.01.2006, 22:45 
Аватара пользователя
Благодарю всех, кто помогал мне в создании книги и был очень терпелив со мной (оcобенно vadimir, Judge_AK и PAV) ! Только благодаря Вашей общей помощи и Вашему времени мой первый блин не вышел комом! :wink:
Ну и конечно-же тебя, Влад, я тоже очень сильно благодарю!

 
 
 
 
Сообщение23.01.2006, 23:47 
Аватара пользователя
Шустро ребята работают :)))
http://forum.ru-board.com/topic.cgi?for ... art=560#16

 
 
 
 
Сообщение24.01.2006, 00:05 
Аватара пользователя
cepesh писал(а):
Шустро ребята работают :)))
http://forum.ru-board.com/topic.cgi?for ... art=560#16

Просто vadimir с нашего форума - это VadimirTT с Ру-Борда. :wink:

 
 
 
 
Сообщение24.01.2006, 00:06 
Аватара пользователя
не новость :)

 
 
 
 Некоторые замечания
Сообщение24.01.2006, 09:29 
PAV писал(а):
cepesh писал(а):
(Можно сразу загрузить в программу все страницы книги, а потом кодировать. Но это может сильно загрузить комп. Рекомендуют делать порциями страниц по 50)


По-моему это неправильно. В инструкции написано ОТКРЫВАТЬ порциями, а кодировать нужно все вместе. Насколько я понимаю суть формата, он сначала выделяет наиболее часто встречающиеся фрагменты изображений, а в дальнейшем для нового фрагмента находит наиболее похожий на него из ранее сохраненных и ссылается на него. Поскольку печатный текст состоит в основном из повторяющихся фрагментов, то это и дает существенную экономию.

Если кодировать порциями по 50 страниц, то придется в каждой порции заново искать фрагменты и заново их кодировать. Таким образом, объем файла при этом может оказаться сильно выше.


Не совсем так: попробуйте кодировать отдельные страницы книги, и Вы увидите что никакого выигрыша в сжатии, по сравнению с пакетом нет. Вероятнее всего DjvuEditor при кодировке не делает анализа всего загруженного пакета, а анализирует только текущую страницу. Т.е. для каждой страницы пакета выбирается свой алгоритм сжатия.
Для кодирования книг в формат djvu лучше устанавливать режим "Normal", т.к. режим "Без потерь" сильно увеличивает размер кодированного файла, не давая заметного выигрыша в качестве. Режим "Без потерь" более подходит для фотографий.
По поводу режима сканирования:
Для подавляющего большинства сканируемых книг вполне достаточно разрешения в 300dpi, 600 dpi применяйте для мелкого текста.
Чёрно-белый режим более компактен чем градации серого, но у него есть весьма существенные минусы:
Во-первых: качество полутоновых иллюстраций в ч-б режиме получается омерзительным.
Во-вторых: в месте неплотного прилегания книги к стеклу сканера получаются грязные чёрные полосы (текст становится совершенно нечитаемым).
В-третьих: программы распознавания текста, например Finereader, гораздо хуже распознают ч-б текст, чем текст в градациях серого. Это вызвано тем, что буквы в ч-б режиме получаются "рваными" (при большом увеличении это хорошо видно).
В подавляющем большинстве выложенных в сети книг с OCR, вместо русских букв отображаются крюкозябры. Вероятно при распознавании текста, хоть и был выбран русский язык, но не было сделано переключение на русскую раскладку клавиатуры, что неминуемо приводит к появлению крюкозябров.
Поэтому при распознавании текста в DjvuEditor'e, необходимо не только выполнение вышеназванных условий, но и должно быть исключено переключение раскладки клавиатуры, что происходит при переключении на другие приложения.
Т.е. распознавание должно происходить монопольно!

 
 
 
 
Сообщение24.01.2006, 11:59 
Аватара пользователя
Варяг
Цитата:
Не совсем так: попробуйте кодировать отдельные страницы книги, и Вы увидите что никакого выигрыша в сжатии, по сравнению с пакетом нет.

Не совсем так: :D, все зависит от размера страниц на словарь. По умолчанию стоит, кажется, один словарь на 10 или 20 страниц. Многочисленными :D экспериментами было установлено, что если его увеличить примерно до 200 (некоторые экстремисты доходят до 1000, чтоб вся книга была охвачена), то выходной размер файла, именно при пакетном кодировании в один файл, будет на 20-30% меньше, если исходник не сильно грязный.
Цитата:
Для подавляющего большинства сканируемых книг вполне достаточно разрешения в 300dpi, 600 dpi применяйте для мелкого текста.

Исходник надо сканировать или 300dpi в градациях серого, или 600 dpi в ч/б. Можно 600 dpi в градациях серого для супер старательных, чтоб на выходе продукт был идентичен натуральному.
Цитата:
качество полутоновых иллюстраций в ч-б режиме получается омерзительным.

После обработки, я вручную вставляю полутоновые иллюстрации, геморрой конечно, а затем кодирую профилем на основе bitonal, получается вполне сносная бинаризация картинки.
Цитата:
В подавляющем большинстве выложенных в сети книг с OCR, вместо русских букв отображаются крюкозябры.

это глюк винды, я установил reg файл для лечения проблем с кириллицей (правда его уже успел потерять), и все стало отлично, никаких крякозябров.
Цитата:
при распознавании текста в DjvuEditor'e

на мой взгляд файнридер + утилита от генчо тоже заслуживает внимание для этого процесса :D .

Capella
Отпишите уж тут кратенько, этапы процесса, подведение итогов так сказать, а то зайдет интересующийся неофит, и может сразу же прозреет и несколькими неряшливо сделанными книгами станет меньше :D .

 
 
 
 
Сообщение24.01.2006, 14:05 
Аватара пользователя
Ура!!! книга уже в библиотеке! Просим заценить.

А насчёт сканирования никаких особых рекомендаций дать пока не могу. Единственно, что может быть действительно важно, так это повесить в инструкциях адрес клиента для неруссифицированных виндов. :?

 
 
 
 
Сообщение24.01.2006, 16:05 
vadimir писал(а):
Варяг
Цитата:
Не совсем так: попробуйте кодировать отдельные страницы книги, и Вы увидите что никакого выигрыша в сжатии, по сравнению с пакетом нет.

Не совсем так: :D, все зависит от размера страниц на словарь. По умолчанию стоит, кажется, один словарь на 10 или 20 страниц. Многочисленными :D экспериментами было установлено, что если его увеличить примерно до 200 (некоторые экстремисты доходят до 1000, чтоб вся книга была охвачена), то выходной размер файла, именно при пакетном кодировании в один файл, будет на 20-30% меньше, если исходник не сильно грязный.
Цитата:
Для подавляющего большинства сканируемых книг вполне достаточно разрешения в 300dpi, 600 dpi применяйте для мелкого текста.

Исходник надо сканировать или 300dpi в градациях серого, или 600 dpi в ч/б. Можно 600 dpi в градациях серого для супер старательных, чтоб на выходе продукт был идентичен натуральному.
Цитата:
качество полутоновых иллюстраций в ч-б режиме получается омерзительным.

После обработки, я вручную вставляю полутоновые иллюстрации, геморрой конечно, а затем кодирую профилем на основе bitonal, получается вполне сносная бинаризация картинки.
Цитата:
В подавляющем большинстве выложенных в сети книг с OCR, вместо русских букв отображаются крюкозябры.

это глюк винды, я установил reg файл для лечения проблем с кириллицей (правда его уже успел потерять), и все стало отлично, никаких крякозябров.
Цитата:
при распознавании текста в DjvuEditor'e

на мой взгляд файнридер + утилита от генчо тоже заслуживает внимание для этого процесса :D .

Capella
Отпишите уж тут кратенько, этапы процесса, подведение итогов так сказать, а то зайдет интересующийся неофит, и может сразу же прозреет и несколькими неряшливо сделанными книгами станет меньше :D .


Запросто!
1. Сканировать необходимо установив при предварительном просмотре яркость и контрастность так, чтобы изображение было хорошо различимо при минимуме "мусора" (бумага была чистого белого цвета, а текст хорошо различим).
2. Режим сканирования 300 dpi, в градациях серого.
3. Сканируйте в TIFF-формат (несжатый) с помощью программы сканирования, поставляемой с Вашим сканером, в файл на винчестере. Следующую страницу можно сканировать в этот же файл, после того как Вы добавите изображение в пакет Finereader'a.
4. Сборку отсканированных страниц лучше всего делать с помощью Finereader'a, открывая отсканированную страницу Finereader сам добавит её в пакет, и выровняет, если был небольшой перекос. Не собирайте в один пакет более 50 страниц, дабы при последующей обработке Ваш компьютер не "тормозил".
Собранные в Finereder'e страницы пакета сохраните в многостраничном TIFF-файле. DjvuEditor поддерживает такой формат.
5. Конвертируйте этот файл в djvu-формат и сохраните.
6. После того как Вы отсканировали и конвертировали всю книгу, можно приступить к её сборке. В DjvuEditor'e, в режиме редактирования, есть возможность добавлять в редактируемый файл готовые блоки djvu-формата.
Открываете первый блок, переходите к последней странице, и вставляете после неё следующий блок и т. д.
Внимание! Собранную полностью книгу сохраните под другим именем, отличающимся от имени первого открытого блока и любых других djvu-файлов в текущей папке. Если этого не сделать, то из-за глюка программы вся Ваша работа по сборке книги пойдёт прахом (в файле будет только содержимое уже существующего под таким именем на диске файла).

 
 
 
 
Сообщение25.01.2006, 00:42 
Варяг писал(а):
открывая отсканированную страницу Finereader сам добавит её в пакет, и выровняет, если был небольшой перекос.

А вот этого делать я не рекомендую. После такого "выравнивания" верхняя и нижняя части букв смещаются относительно друг друга.

 
 
 
 
Сообщение25.01.2006, 07:24 
Judge_AK писал(а):
Варяг писал(а):
открывая отсканированную страницу Finereader сам добавит её в пакет, и выровняет, если был небольшой перекос.

А вот этого делать я не рекомендую. После такого "выравнивания" верхняя и нижняя части букв смещаются относительно друг друга.


Мне непонятно на чём основана Ваша рекомендация: описанным способом мной сделано большинство книг. Посмотрите, например, как сделана "Механика" С. Э. Хайкина 1940 года, она лежит на [url]http://physicsbooks.narod.ru/. Никакого смещения, о котором Вы говорите не было замечено, все страницы лежат прямо, хотя выполнялось сканирование в "разворот", с одновременной их разрезкой.[/url]

 
 
 
 
Сообщение26.01.2006, 17:21 
Варяг писал(а):
Мне непонятно на чём основана Ваша рекомендация: описанным способом мной сделано большинство книг. Посмотрите, например, как сделана "Механика" С. Э. Хайкина 1940 года, она лежит на http://physicsbooks.narod.ru/. Никакого смещения, о котором Вы говорите не было замечено, все страницы лежат прямо, хотя выполнялось сканирование в "разворот", с одновременной их разрезкой.

Посмотрите внимательно на нижние части букв М, Н, И(смещение есть и у остальных букв, но у этих оно видно "невооруженным глазом") в слове "МЕХАНИКА" на титульном листе.
Это то самое смещение о котором я говорил. А теперь представьте, что это по всей книге.
Я говорил не о страницах, а о буквах и соответ. словах.

 
 
 [ Сообщений: 208 ]  На страницу Пред.  1, 2, 3, 4, 5, 6 ... 14  След.


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group