2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Если не копируется текст из pdf?
Сообщение20.01.2013, 20:45 
Можно ли что-то сделать с файлами формата pdf, из которых обычным путём не получается копировать текст?
Именно, текст при копировании вставляется кроказябрами.

Пример файла, из которого не получается копировать текст: http://www.lrc-lib.ru/ruslang/noss/text.pdf

 
 
 
 Re: Если не копируется текст из pdf?
Сообщение24.01.2013, 11:54 
Проблема со шрифтами или кодировкой. Я не знаю, как с этим бороться. Как вариант: перераспознавание файла PDF, через OCR. ABBYY имеет программу для этого... но это из пушки по воробьям. Ибо, если символы копируются (хоть и кракозябрами), значит, их можно получить в читаемом виде. Вставлять в совсем новый документ MS Word не пробовали? Он в кодировках очень даже рубит!

 
 
 
 Re: Если не копируется текст из pdf?
Сообщение24.01.2013, 11:59 
TupaHo3aBp в сообщении #675684 писал(а):
Вставлять в совсем новый документ MS Word не пробовали?

Попробовал. Те же самые кроказябры.

 
 
 
 Re: Если не копируется текст из pdf?
Сообщение24.01.2013, 12:15 
TupaHo3aBp в сообщении #675684 писал(а):
Вставлять в совсем новый документ MS Word не пробовали? Он в кодировках очень даже рубит!

Там все русские буквы передаются латиницей и спецсимволами, т.е. первой половиной кодовой страницы, причём это не транслит. Так что никакой перекодировщик не поможет. Ну разве что попытаться сочинить самопальный, специально для этого файла...

 
 
 
 Re: Если не копируется текст из pdf?
Сообщение24.01.2013, 12:51 
Спасибо!

 
 
 
 Re: Если не копируется текст из pdf?
Сообщение24.01.2013, 21:30 
Вообще-то по русским буквам -- это стандартная кодировка Windows (кодовая страница 1251), только сдвинутая почему-то именно на 134 влево. По спецсимволам (типа знаков препинания) -- сдвинута влево ещё более почему-то на 29. И, по некоторым признакам -- всё это следы некоего обрезания какого-то из Юникодов; и, возможно, их можно восстановить разными там манипуляциями с Вордом и/или Блокнотом; но можно ли, и если можно, то как -- не знаю.

 
 
 
 Re: Если не копируется текст из pdf?
Сообщение24.01.2013, 21:56 
Аватара пользователя
Сделайте скриншот с экранной области, pdf превращается в картинку. И в OCR её, работает на раз.

 
 
 
 Re: Если не копируется текст из pdf?
Сообщение24.01.2013, 23:48 
Xugin в сообщении #675875 писал(а):
И в OCR её, работает на раз.

OCR там не то и без того есть, не то Ридер на весу сам файнридерит. Скорее всего, первое, поскольку при некоторых телодвижениях выползают сообщения о каком-то из Юникодов. Только текстовой слой там какой-то странный -- кодировка при желании хоть и читается легко, но напрочь сбита по отношению ко всему естественному.

 
 
 
 Re: Если не копируется текст из pdf?
Сообщение25.01.2013, 00:02 
Аватара пользователя
Я ж и говорю, зачем голову с Юникодом морочить. Картинка распознаётся качественнее, даже не последней версией Аби.

 
 
 
 Re: Если не копируется текст из pdf?
Сообщение26.01.2013, 19:53 
Xugin в сообщении #675907 писал(а):
Я ж и говорю, зачем голову с Юникодом морочить. Картинка распознаётся качественнее,

Затем, что это морока -- грабить экран, потом запускать Файнридер (который, между прочим, весьма долго запускается). Гораздо проще скопировать мышкой что получится в какой-нибудь примитивный текстовой редактор и уже из него перекодировать простенькой самопальной утилиткой. Но на это надо настроиться, конечно. Дишовых же путей -- судя по всему, нет.

 
 
 
 Re: Если не копируется текст из pdf?
Сообщение13.02.2013, 16:53 
ewert в сообщении #676526 писал(а):
это морока -- грабить экран

Пользуюсь программкой для просмотра pdf-файлов, которая сама способна экспортировать pdf в растр.

 
 
 [ Сообщений: 11 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group