2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 OCR pdf с текстовым слоем
Сообщение14.05.2018, 15:53 
Заслуженный участник
Аватара пользователя


31/01/14
11304
Hogtown
Иногда встречаются pdf файлы с неполным или испорченным текстовым слоем (text layer). Это бывает в "математическом мире" в следующей ситуации: TeX файл был превращен в dvi , потом в ps с использованием очень старого (конца прошлого века) dvips, а затем (обычно спустя много лет) [ и без фиксирования с помощью pkfix и pkfix-helper] превращен в pdf, в котором текстовой слой уже полностью и безнадежно испорчен.

А вот в "легальном мире" лучшие юридические умы :mrgreen: nпроизводят такое сейчас. Пример: https://www.courtlistener.com/recap/gov.uscourts.nysd.492363/gov.uscourts.nysd.492363.1.0.pdf
(выглядит хорошо, но попробуйте copy–paste). Как они умудрились?--Не знаю, для этого надо было закончить элитную School of Law.

К сожалению, даже последний (пререлиз) Акробат в упор не желает OCR страницу, на которой есть текстовой слой. Я жаловался Адобе на это несколько лет назад... Конечно, можно экспортировать в какой нибудь tiff (создается по файлу на каждую страницу), затем импортировать все это обратно в pdf (при этом текстовой слой разрушается) и OCR. Но это не только муторно, но и приводит к ухудшению графического слоя (graphic layer).

К счастью, ABBYY Fine Reader не имеет таких предрассудков: если использовать его для того, чтобы OCR pdf файл с испорченным текстовым слоем (или неиспорченным), FR просто игнорирует его. Просто и никакого ухудшения графического слоя.

 Профиль  
                  
 
 Re: OCR pdf с текстовым слоем
Сообщение14.05.2018, 16:31 


05/09/16
12056
Red_Herring в сообщении #1312322 писал(а):
Как они умудрились?--Не знаю, для этого надо было закончить элитную School of Law.

Проблема описана (в частности) тут: https://forums.adobe.com/thread/758316

 Профиль  
                  
 
 Re: OCR pdf с текстовым слоем
Сообщение14.05.2018, 17:34 
Заслуженный участник
Аватара пользователя


31/01/14
11304
Hogtown
wrest в сообщении #1312326 писал(а):
Проблема описана (в частности) тут
И "в буфете, для других закрытом" (Адобе форуме для бета тестеров). Но у нормальных людей проблема другая: как фиксировать такой pdf. И совет дается не самый лучший (и там и тут). Я в очередной раз попросил Адобе инкорпорировать метод, применяемый ABBYY

 Профиль  
                  
 
 Re: OCR pdf с текстовым слоем
Сообщение14.05.2018, 17:37 


21/05/16
4292
Аделаида
Red_Herring в сообщении #1312336 писал(а):
в буфете, для других закрытом

Не знаю; я там не зарегистрирован, но у меня открывается.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 4 ] 

Модератор: Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group