2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Проблема с кодировкой у PDF
Сообщение23.04.2009, 04:19 
У меня есть книга в формате PDF, созданная с помощью LATEXa. Текст поидее должен быть распознан. Но при попытке скопировать текст в ворд выдает абракабадру. Пробовал все виды Шрифтов в ворде, не получилось. Попробовал каким то левым редактором (в Origine Label) поменять (шрифт или кодировку) получилось, Но при копировании снова в ворд опять проблемы. При попытке сохранить весь PDF документ в doc выдает также ерунду. Как узнать в какой кодировке был записан PDF файл и побороть непонимание?
Acrobat Pro 7
В книге много формул

 
 
 
 
Сообщение24.04.2009, 19:09 
Аватара пользователя
recvezitor

Постараюсь ответить на вторую часть Вашего вопроса о том как побороть непонимание.

Насколько я знаю --- никак, если нет исходника, т.е. *.tex.

Если он есть, то поправить дело можно.

Про кодировку ничего не могу сказать.

Добавлено спустя 1 минуту 44 секунды:

Хотя можно пойти более долгим путем: распустить pdf-файл на tiff-файлы и распознать их в FR. Вот Вам и текст.

 
 
 
 Re: Проблема с кодировкой у PDF
Сообщение01.10.2009, 14:16 
Аватара пользователя
у меня была точно такая же проблема!.. пришлось пользоваться програмкой по переводу из PDF в Word

 
 
 
 Re: Проблема с кодировкой у PDF
Сообщение02.10.2009, 12:00 
recvezitor в сообщении #207266 писал(а):
У меня есть книга в формате PDF, созданная с помощью LATEXa. Текст поидее должен быть распознан. Но при попытке скопировать текст в ворд выдает абракабадру. Пробовал все виды Шрифтов в ворде, не получилось. Попробовал каким то левым редактором (в Origine Label) поменять (шрифт или кодировку) получилось, Но при копировании снова в ворд опять проблемы. При попытке сохранить весь PDF документ в doc выдает также ерунду. Как узнать в какой кодировке был записан PDF файл и побороть непонимание?
Acrobat Pro 7
В книге много формул

Если книга в PDF растровая, то пробуйте следующую процедуру:
1. Убедитесь что у вас установлен принтер ADOBE PDF;
2. Смените стандартные настройки принтера на свои, чтобы исключить сжатие любых объектов и обеспечте встраивание в текст фонтов TrueType и OpenType (хорошо бы Вам иметь современную библиотеку фонтов Adobe);
3. Распечатайте книгу с новыми настройками;
4. Распечатанный текст конвертируйте в Word.
P.S.
Acrobat 7 устарел, лучше пользоваться Acrobat 9.

 
 
 
 Re: Проблема с кодировкой у PDF
Сообщение05.10.2009, 14:13 
Аватара пользователя
А что такое принтер ADOBE PDF?

 
 
 
 Re: Проблема с кодировкой у PDF
Сообщение05.10.2009, 16:02 
Чудо-в-перьях в сообщении #249211 писал(а):
А что такое принтер ADOBE PDF?

Это важная утилита Adobe Acrobat! Обычно устанавливается вместе с самим Adobe Acrobat. Посмотрите список принтеров в панели управления.

 
 
 
 Re: Проблема с кодировкой у PDF
Сообщение06.10.2009, 11:43 
Аватара пользователя
Посмотрела, но его там нет!.. 8-) Есть только мой фактический принтер. Acrobat 7-ой у меня. и еще, наверное, в какой-то мини-версии))))

 
 
 
 Re: Проблема с кодировкой у PDF
Сообщение06.10.2009, 17:11 
Аватара пользователя
У Вас, наверное, Acrobat Reader. Он бесплатный но за это создавать pdf-ы не умеет, только читать. И посему принтера там, естественно, нет.

 
 
 
 Re: Проблема с кодировкой у PDF
Сообщение08.10.2009, 12:22 
Аватара пользователя
Да, да, именно он!)))

 
 
 
 Re:
Сообщение08.10.2009, 20:25 
reader_st в сообщении #207836 писал(а):
recvezitor

Хотя можно пойти более долгим путем: распустить pdf-файл на tiff-файлы и распознать их в FR. Вот Вам и текст.

Во-первых для FR не требуется "распускать" pdf-файл, он и с pdf прекрасно работает!
Во-вторых FR ничем здесь не поможет, т.к. FR, к сожалению, не распознает матформулы со специальными знаками (интегралов, сумм, произведений, частных производных ets.) и оставляет либо крякозябры либо, в лучшем случае, картинки с формулами.

-- Чт окт 08, 2009 21:28:58 --

Чудо-в-перьях в сообщении #250035 писал(а):
Да, да, именно он!)))

Ищите (в сети Adobe Acrobat) и обрящете!
Другие же находят!

 
 
 
 Re: Проблема с кодировкой у PDF
Сообщение12.10.2009, 13:07 
Аватара пользователя
Буду искать! )) устала мучиться с распечаткой PDF-документов))

 
 
 
 Re: Проблема с кодировкой у PDF
Сообщение13.10.2009, 12:46 
При создании pdf латехом напишите в преамбуле
Код:
\usepackage{cmap}

тогда кодировка будет "правильной".
Если у вас уже готовый pdf, попробуйте с ним:
Код:
pdftotext file.pdf  - |  enconv

 
 
 [ Сообщений: 12 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group