Иногда встречаются pdf файлы с неполным или испорченным текстовым слоем (text layer). Это бывает в "математическом мире" в следующей ситуации: TeX файл был превращен в dvi , потом в ps с использованием очень старого (конца прошлого века) dvips, а затем (обычно спустя много лет) [ и без фиксирования с помощью pkfix и pkfix-helper] превращен в pdf, в котором текстовой слой уже полностью и безнадежно испорчен.
А вот в "легальном мире" лучшие юридические умы
nпроизводят такое сейчас. Пример:
https://www.courtlistener.com/recap/gov.uscourts.nysd.492363/gov.uscourts.nysd.492363.1.0.pdf(выглядит хорошо, но попробуйте copy–paste). Как они умудрились?--Не знаю, для этого надо было закончить элитную School of Law.
К сожалению, даже последний (пререлиз) Акробат в упор не желает OCR страницу, на которой есть текстовой слой. Я жаловался Адобе на это несколько лет назад... Конечно, можно экспортировать в какой нибудь tiff (создается по файлу на каждую страницу), затем импортировать все это обратно в pdf (при этом текстовой слой разрушается) и OCR. Но это не только муторно, но и приводит к ухудшению графического слоя (graphic layer).
К счастью, ABBYY Fine Reader не имеет таких предрассудков: если использовать его для того, чтобы OCR pdf файл с испорченным текстовым слоем (или неиспорченным), FR просто игнорирует его. Просто и никакого ухудшения графического слоя.