2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Русская кодировка в LaTeX/PDF: 1251 -- 1252?
Сообщение14.11.2016, 18:31 
День добрый!

При компилировании русского документа в ТеХ получается нормальный русский PDF документ, но при копировании из него текста его кодировка распознается как 1252 (проверено декодером Артемия Лебедева).
Проблема в том, что документ (диссер) должен пройти проверку на плагиат, а при загрузке в систему все русские буквы превращаются в псевдосимволы.
Подскажите, что делать?

 
 
 
 Re: Русская кодировка в LaTeX/PDF: 1251 -- 1252?
Сообщение14.11.2016, 19:38 
Было бы неплохо увидеть преамбулу документа, очевидно.

 
 
 
 Re: Русская кодировка в LaTeX/PDF: 1251 -- 1252?
Сообщение14.11.2016, 20:00 
Первое, что приходит в голову - подключить пакет cmap.
Насколько я помню, его надо подключать перед загрузкой пакетов fontenc и babel.
У меня, например, строка
\usepackage{cmap}
идет сразу после выдора класса документа.

 
 
 
 Re: Русская кодировка в LaTeX/PDF: 1251 -- 1252?
Сообщение14.11.2016, 20:37 
Вариантов масса. Это и cmap для pdflatex (хорошо бы ещё вкупе с переводом на utf8 кодировку исходников), и перевод на utf8, но уже под xetex или lualatex. Есть ещё фокусы с подключением glyphtounicode.
Можно перевести диссертацию на шаблон Russian-Phd-LaTeX-Dissertation-Template, если время позволяет.
Ну и кодировка неправильная внутри документа по идее позволит пройти проверку идеально - ни капли плагиата, а то что система не знакома с такой распространенной проблемой, разве ваша проблема?!

 
 
 
 Re: Русская кодировка в LaTeX/PDF: 1251 -- 1252?
Сообщение14.11.2016, 21:46 
Кстати это серьёзный вопрос, который связан с глюком в акробате, и который эти твари уже лет десять не хотят исправлять.

 
 
 
 Re: Русская кодировка в LaTeX/PDF: 1251 -- 1252?
Сообщение15.11.2016, 14:39 
Всем спасибо большое!

После добавления cmap и компилирования под русской виндой все заработало.
Возможно проблема была даже не в пакетах, а в том, что у меня на одном ноутбуке стоит англ. винда. Там везде задано в локальных настройках, что местоположение Россия, язык русский и пр., но может чего-то не хватает...

А насчет прохождения антиплагиата, тут есть два момента.
Во-первых система находила повторяющиеся фрагменты, но показывала их псевдосимволами, что полностью сводило с ума.
Во-вторых, есть такой человек, как секретарь ученого совета. Если ему что-то не нравится, он может просто завернуть диссер. А такие глюки с кодировкой ему точно не понравятся :)

 
 
 
 Re: Русская кодировка в LaTeX/PDF: 1251 -- 1252?
Сообщение26.11.2016, 09:16 
Хотелось бы добиться ещё двух вещей.
1) Да, в пдф по совету получается текст без кракозябр, но он совершенно в дикой кодировке с многочисленными ненужными пробелами и переносами. Можно добиться, чтобы копирование в буфер давало более приличный текст без этих бяк, которые потом надо дорабатывать?
2) Из пдф понятно. А как без кракозябр скопировать текст из самого tex-файла?
Иcпользую win7 rus, WinEdt 5, текст нужно переносить в word или text файл. Умею только через декодер Лебедева, спасибо ему.

 
 
 
 Re: Русская кодировка в LaTeX/PDF: 1251 -- 1252?
Сообщение26.11.2016, 11:36 
1. https://github.com/AndreyAkinshin/Russi ... es.tex#L46
Используется синтаксис LaTeX
\defaulthyphenchar=127 % Если стоит до fontenc, то переносы не впишутся в выделяемый текст при копировании его в буфер обмена


2. http://pandoc.org/installing.html
Используется синтаксис Bash
pandoc -o output.txt input.tex

http://tex.stackexchange.com/q/180369

 
 
 
 Re: Русская кодировка в LaTeX/PDF: 1251 -- 1252?
Сообщение27.11.2016, 16:36 
Это целиком текст из теха, когда нужно. А что написать в преамбуле, чтобы скопированный текст из исходника теха переносился корректно в текстовый файл или word?

 
 
 
 Re: Русская кодировка в LaTeX/PDF: 1251 -- 1252?
Сообщение27.11.2016, 18:55 
А в какой кодировке текст в файле и из какого редактора вы его копируете в какой (с какой кодировкой поставленной уже там)?

-- Вс ноя 27, 2016 20:57:20 --

Это надо определять каким-то внешним способом. Скажем, открыть этот файл целиком в ворде, и он, по идее, должен показать диалог с кодировками, где какая-то из них предложена.

-- Вс ноя 27, 2016 20:59:25 --

В общем, даже если кодировки источника и приёмника совпадают, это может быть ерунда с тем, как источник помещает текст в буфер обмена. Он может делать это абы как.

 
 
 
 Re: Русская кодировка в LaTeX/PDF: 1251 -- 1252?
Сообщение01.12.2016, 09:23 
Ещё раз вопрос задам поконкретнее: есть ли пакет, который можно подключить в латехе, или другой простой способ, чтобы скопированные фрагменты текста из файла TEX с кодировкой 1251 корректно вставлялись через буфер обмена в текстовые редакторы с кодировкой 1251, а также в русский ворд? Используются WIN7 Rus, WinEdt 5, Miktex, русский ворд или текстовые редакторы, настроенные на 1251.
По факту они получаются, как тут указывалось и для pdf, в кодировке 1252 и приходится прогонять через декодер.

 
 
 
 Re: Русская кодировка в LaTeX/PDF: 1251 -- 1252?
Сообщение01.12.2016, 22:05 
Ну а пакеты-то тут при чём? Текст теховского исходника не влияет на текстовый редактор, в котором находится, таким образом — максимум редактор вам его подсветит особым образом. Перекодировать на лету на основании его содержимого его не станут — такое поведение было бы просто не user-friendly. Так что это наверняка что-то с редактором, если уж в вашем коде представлены кириллические буквы, т. к. тогда кодировка файла просто не может быть Win1252.

 
 
 [ Сообщений: 12 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group