OCR pdf с текстовым слоем

Red_Herring · 14.05.2018, 15:53

Иногда встречаются pdf файлы с неполным или испорченным текстовым слоем (text layer). Это бывает в "математическом мире" в следующей ситуации: TeX файл был превращен в dvi , потом в ps с использованием очень старого (конца прошлого века) dvips, а затем (обычно спустя много лет) [ и без фиксирования с помощью pkfix и pkfix-helper] превращен в pdf, в котором текстовой слой уже полностью и безнадежно испорчен.

А вот в "легальном мире" лучшие юридические умы :mrgreen:

nпроизводят такое сейчас. Пример: https://www.courtlistener.com/recap/gov.uscourts.nysd.492363/gov.uscourts.nysd.492363.1.0.pdf
(выглядит хорошо, но попробуйте copy–paste). Как они умудрились?--Не знаю, для этого надо было закончить элитную School of Law.

К сожалению, даже последний (пререлиз) Акробат в упор не желает OCR страницу, на которой есть текстовой слой. Я жаловался Адобе на это несколько лет назад... Конечно, можно экспортировать в какой нибудь tiff (создается по файлу на каждую страницу), затем импортировать все это обратно в pdf (при этом текстовой слой разрушается) и OCR. Но это не только муторно, но и приводит к ухудшению графического слоя (graphic layer).

К счастью, ABBYY Fine Reader не имеет таких предрассудков: если использовать его для того, чтобы OCR pdf файл с испорченным текстовым слоем (или неиспорченным), FR просто игнорирует его. Просто и никакого ухудшения графического слоя.

wrest · 14.05.2018, 16:31

Red_Herring в сообщении #1312322 писал(а):

Как они умудрились?--Не знаю, для этого надо было закончить элитную School of Law.

Проблема описана (в частности) тут: https://forums.adobe.com/thread/758316

Red_Herring · 14.05.2018, 17:34

wrest в сообщении #1312326 писал(а):

Проблема описана (в частности) тут

И "в буфете, для других закрытом" (Адобе форуме для бета тестеров). Но у нормальных людей проблема другая: как фиксировать такой pdf. И совет дается не самый лучший (и там и тут). Я в очередной раз попросил Адобе инкорпорировать метод, применяемый ABBYY

kotenok gav · 14.05.2018, 17:37

Red_Herring в сообщении #1312336 писал(а):

в буфете, для других закрытом

Не знаю; я там не зарегистрирован, но у меня открывается.

Научный форум dxdy

OCR pdf с текстовым слоем