2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 OCR pdf с текстовым слоем
Сообщение14.05.2018, 15:53 
Аватара пользователя
Иногда встречаются pdf файлы с неполным или испорченным текстовым слоем (text layer). Это бывает в "математическом мире" в следующей ситуации: TeX файл был превращен в dvi , потом в ps с использованием очень старого (конца прошлого века) dvips, а затем (обычно спустя много лет) [ и без фиксирования с помощью pkfix и pkfix-helper] превращен в pdf, в котором текстовой слой уже полностью и безнадежно испорчен.

А вот в "легальном мире" лучшие юридические умы :mrgreen: nпроизводят такое сейчас. Пример: https://www.courtlistener.com/recap/gov.uscourts.nysd.492363/gov.uscourts.nysd.492363.1.0.pdf
(выглядит хорошо, но попробуйте copy–paste). Как они умудрились?--Не знаю, для этого надо было закончить элитную School of Law.

К сожалению, даже последний (пререлиз) Акробат в упор не желает OCR страницу, на которой есть текстовой слой. Я жаловался Адобе на это несколько лет назад... Конечно, можно экспортировать в какой нибудь tiff (создается по файлу на каждую страницу), затем импортировать все это обратно в pdf (при этом текстовой слой разрушается) и OCR. Но это не только муторно, но и приводит к ухудшению графического слоя (graphic layer).

К счастью, ABBYY Fine Reader не имеет таких предрассудков: если использовать его для того, чтобы OCR pdf файл с испорченным текстовым слоем (или неиспорченным), FR просто игнорирует его. Просто и никакого ухудшения графического слоя.

 
 
 
 Re: OCR pdf с текстовым слоем
Сообщение14.05.2018, 16:31 
Red_Herring в сообщении #1312322 писал(а):
Как они умудрились?--Не знаю, для этого надо было закончить элитную School of Law.

Проблема описана (в частности) тут: https://forums.adobe.com/thread/758316

 
 
 
 Re: OCR pdf с текстовым слоем
Сообщение14.05.2018, 17:34 
Аватара пользователя
wrest в сообщении #1312326 писал(а):
Проблема описана (в частности) тут
И "в буфете, для других закрытом" (Адобе форуме для бета тестеров). Но у нормальных людей проблема другая: как фиксировать такой pdf. И совет дается не самый лучший (и там и тут). Я в очередной раз попросил Адобе инкорпорировать метод, применяемый ABBYY

 
 
 
 Re: OCR pdf с текстовым слоем
Сообщение14.05.2018, 17:37 
Red_Herring в сообщении #1312336 писал(а):
в буфете, для других закрытом

Не знаю; я там не зарегистрирован, но у меня открывается.

 
 
 [ Сообщений: 4 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group