2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Русская кодировка в LaTeX/PDF: 1251 -- 1252?
Сообщение14.11.2016, 18:31 


14/11/16
2
День добрый!

При компилировании русского документа в ТеХ получается нормальный русский PDF документ, но при копировании из него текста его кодировка распознается как 1252 (проверено декодером Артемия Лебедева).
Проблема в том, что документ (диссер) должен пройти проверку на плагиат, а при загрузке в систему все русские буквы превращаются в псевдосимволы.
Подскажите, что делать?

 Профиль  
                  
 
 Re: Русская кодировка в LaTeX/PDF: 1251 -- 1252?
Сообщение14.11.2016, 19:38 
Заслуженный участник


27/04/09
28128
Было бы неплохо увидеть преамбулу документа, очевидно.

 Профиль  
                  
 
 Re: Русская кодировка в LaTeX/PDF: 1251 -- 1252?
Сообщение14.11.2016, 20:00 


14/02/16
20
Первое, что приходит в голову - подключить пакет cmap.
Насколько я помню, его надо подключать перед загрузкой пакетов fontenc и babel.
У меня, например, строка
\usepackage{cmap}
идет сразу после выдора класса документа.

 Профиль  
                  
 
 Re: Русская кодировка в LaTeX/PDF: 1251 -- 1252?
Сообщение14.11.2016, 20:37 


13/07/14
257
Вариантов масса. Это и cmap для pdflatex (хорошо бы ещё вкупе с переводом на utf8 кодировку исходников), и перевод на utf8, но уже под xetex или lualatex. Есть ещё фокусы с подключением glyphtounicode.
Можно перевести диссертацию на шаблон Russian-Phd-LaTeX-Dissertation-Template, если время позволяет.
Ну и кодировка неправильная внутри документа по идее позволит пройти проверку идеально - ни капли плагиата, а то что система не знакома с такой распространенной проблемой, разве ваша проблема?!

 Профиль  
                  
 
 Re: Русская кодировка в LaTeX/PDF: 1251 -- 1252?
Сообщение14.11.2016, 21:46 


25/08/11

1074
Кстати это серьёзный вопрос, который связан с глюком в акробате, и который эти твари уже лет десять не хотят исправлять.

 Профиль  
                  
 
 Re: Русская кодировка в LaTeX/PDF: 1251 -- 1252?
Сообщение15.11.2016, 14:39 


14/11/16
2
Всем спасибо большое!

После добавления cmap и компилирования под русской виндой все заработало.
Возможно проблема была даже не в пакетах, а в том, что у меня на одном ноутбуке стоит англ. винда. Там везде задано в локальных настройках, что местоположение Россия, язык русский и пр., но может чего-то не хватает...

А насчет прохождения антиплагиата, тут есть два момента.
Во-первых система находила повторяющиеся фрагменты, но показывала их псевдосимволами, что полностью сводило с ума.
Во-вторых, есть такой человек, как секретарь ученого совета. Если ему что-то не нравится, он может просто завернуть диссер. А такие глюки с кодировкой ему точно не понравятся :)

 Профиль  
                  
 
 Re: Русская кодировка в LaTeX/PDF: 1251 -- 1252?
Сообщение26.11.2016, 09:16 


25/08/11

1074
Хотелось бы добиться ещё двух вещей.
1) Да, в пдф по совету получается текст без кракозябр, но он совершенно в дикой кодировке с многочисленными ненужными пробелами и переносами. Можно добиться, чтобы копирование в буфер давало более приличный текст без этих бяк, которые потом надо дорабатывать?
2) Из пдф понятно. А как без кракозябр скопировать текст из самого tex-файла?
Иcпользую win7 rus, WinEdt 5, текст нужно переносить в word или text файл. Умею только через декодер Лебедева, спасибо ему.

 Профиль  
                  
 
 Re: Русская кодировка в LaTeX/PDF: 1251 -- 1252?
Сообщение26.11.2016, 11:36 


13/07/14
257
1. https://github.com/AndreyAkinshin/Russi ... es.tex#L46
Используется синтаксис LaTeX
\defaulthyphenchar=127 % Если стоит до fontenc, то переносы не впишутся в выделяемый текст при копировании его в буфер обмена


2. http://pandoc.org/installing.html
Используется синтаксис Bash
pandoc -o output.txt input.tex

http://tex.stackexchange.com/q/180369

 Профиль  
                  
 
 Re: Русская кодировка в LaTeX/PDF: 1251 -- 1252?
Сообщение27.11.2016, 16:36 


25/08/11

1074
Это целиком текст из теха, когда нужно. А что написать в преамбуле, чтобы скопированный текст из исходника теха переносился корректно в текстовый файл или word?

 Профиль  
                  
 
 Re: Русская кодировка в LaTeX/PDF: 1251 -- 1252?
Сообщение27.11.2016, 18:55 
Заслуженный участник


27/04/09
28128
А в какой кодировке текст в файле и из какого редактора вы его копируете в какой (с какой кодировкой поставленной уже там)?

-- Вс ноя 27, 2016 20:57:20 --

Это надо определять каким-то внешним способом. Скажем, открыть этот файл целиком в ворде, и он, по идее, должен показать диалог с кодировками, где какая-то из них предложена.

-- Вс ноя 27, 2016 20:59:25 --

В общем, даже если кодировки источника и приёмника совпадают, это может быть ерунда с тем, как источник помещает текст в буфер обмена. Он может делать это абы как.

 Профиль  
                  
 
 Re: Русская кодировка в LaTeX/PDF: 1251 -- 1252?
Сообщение01.12.2016, 09:23 


25/08/11

1074
Ещё раз вопрос задам поконкретнее: есть ли пакет, который можно подключить в латехе, или другой простой способ, чтобы скопированные фрагменты текста из файла TEX с кодировкой 1251 корректно вставлялись через буфер обмена в текстовые редакторы с кодировкой 1251, а также в русский ворд? Используются WIN7 Rus, WinEdt 5, Miktex, русский ворд или текстовые редакторы, настроенные на 1251.
По факту они получаются, как тут указывалось и для pdf, в кодировке 1252 и приходится прогонять через декодер.

 Профиль  
                  
 
 Re: Русская кодировка в LaTeX/PDF: 1251 -- 1252?
Сообщение01.12.2016, 22:05 
Заслуженный участник


27/04/09
28128
Ну а пакеты-то тут при чём? Текст теховского исходника не влияет на текстовый редактор, в котором находится, таким образом — максимум редактор вам его подсветит особым образом. Перекодировать на лету на основании его содержимого его не станут — такое поведение было бы просто не user-friendly. Так что это наверняка что-то с редактором, если уж в вашем коде представлены кириллические буквы, т. к. тогда кодировка файла просто не может быть Win1252.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 12 ] 

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group