2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Если не копируется текст из pdf?
Сообщение20.01.2013, 20:45 


28/11/11
2884
Можно ли что-то сделать с файлами формата pdf, из которых обычным путём не получается копировать текст?
Именно, текст при копировании вставляется кроказябрами.

Пример файла, из которого не получается копировать текст: http://www.lrc-lib.ru/ruslang/noss/text.pdf

 Профиль  
                  
 
 Re: Если не копируется текст из pdf?
Сообщение24.01.2013, 11:54 


26/02/12
50
Проблема со шрифтами или кодировкой. Я не знаю, как с этим бороться. Как вариант: перераспознавание файла PDF, через OCR. ABBYY имеет программу для этого... но это из пушки по воробьям. Ибо, если символы копируются (хоть и кракозябрами), значит, их можно получить в читаемом виде. Вставлять в совсем новый документ MS Word не пробовали? Он в кодировках очень даже рубит!

 Профиль  
                  
 
 Re: Если не копируется текст из pdf?
Сообщение24.01.2013, 11:59 


28/11/11
2884
TupaHo3aBp в сообщении #675684 писал(а):
Вставлять в совсем новый документ MS Word не пробовали?

Попробовал. Те же самые кроказябры.

 Профиль  
                  
 
 Re: Если не копируется текст из pdf?
Сообщение24.01.2013, 12:15 
Заслуженный участник


11/05/08
32166
TupaHo3aBp в сообщении #675684 писал(а):
Вставлять в совсем новый документ MS Word не пробовали? Он в кодировках очень даже рубит!

Там все русские буквы передаются латиницей и спецсимволами, т.е. первой половиной кодовой страницы, причём это не транслит. Так что никакой перекодировщик не поможет. Ну разве что попытаться сочинить самопальный, специально для этого файла...

 Профиль  
                  
 
 Re: Если не копируется текст из pdf?
Сообщение24.01.2013, 12:51 


28/11/11
2884
Спасибо!

 Профиль  
                  
 
 Re: Если не копируется текст из pdf?
Сообщение24.01.2013, 21:30 
Заслуженный участник


11/05/08
32166
Вообще-то по русским буквам -- это стандартная кодировка Windows (кодовая страница 1251), только сдвинутая почему-то именно на 134 влево. По спецсимволам (типа знаков препинания) -- сдвинута влево ещё более почему-то на 29. И, по некоторым признакам -- всё это следы некоего обрезания какого-то из Юникодов; и, возможно, их можно восстановить разными там манипуляциями с Вордом и/или Блокнотом; но можно ли, и если можно, то как -- не знаю.

 Профиль  
                  
 
 Re: Если не копируется текст из pdf?
Сообщение24.01.2013, 21:56 
Аватара пользователя


29/03/12
2427
Нигредо
Сделайте скриншот с экранной области, pdf превращается в картинку. И в OCR её, работает на раз.

 Профиль  
                  
 
 Re: Если не копируется текст из pdf?
Сообщение24.01.2013, 23:48 
Заслуженный участник


11/05/08
32166
Xugin в сообщении #675875 писал(а):
И в OCR её, работает на раз.

OCR там не то и без того есть, не то Ридер на весу сам файнридерит. Скорее всего, первое, поскольку при некоторых телодвижениях выползают сообщения о каком-то из Юникодов. Только текстовой слой там какой-то странный -- кодировка при желании хоть и читается легко, но напрочь сбита по отношению ко всему естественному.

 Профиль  
                  
 
 Re: Если не копируется текст из pdf?
Сообщение25.01.2013, 00:02 
Аватара пользователя


29/03/12
2427
Нигредо
Я ж и говорю, зачем голову с Юникодом морочить. Картинка распознаётся качественнее, даже не последней версией Аби.

 Профиль  
                  
 
 Re: Если не копируется текст из pdf?
Сообщение26.01.2013, 19:53 
Заслуженный участник


11/05/08
32166
Xugin в сообщении #675907 писал(а):
Я ж и говорю, зачем голову с Юникодом морочить. Картинка распознаётся качественнее,

Затем, что это морока -- грабить экран, потом запускать Файнридер (который, между прочим, весьма долго запускается). Гораздо проще скопировать мышкой что получится в какой-нибудь примитивный текстовой редактор и уже из него перекодировать простенькой самопальной утилиткой. Но на это надо настроиться, конечно. Дишовых же путей -- судя по всему, нет.

 Профиль  
                  
 
 Re: Если не копируется текст из pdf?
Сообщение13.02.2013, 16:53 


06/02/13
325
ewert в сообщении #676526 писал(а):
это морока -- грабить экран

Пользуюсь программкой для просмотра pdf-файлов, которая сама способна экспортировать pdf в растр.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 11 ] 

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group