2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Преобразовать .txt в .xml. Python.
Сообщение14.03.2020, 23:04 
Здравствуйте. Пишу сайт библиотеки на django. Предполагается хранить тексты книг в БД в формате xml (не обязательно как xml файл, можно просто в виде текста с xml разметкой) или html. Но изначальные тексты будут в формате .txt, .rtf или .doc. Как преобразовать эти форматы в .xml с сохранением исходного форматирования с помощью python?

 
 
 
 Re: Преобразовать .txt в .xml. Python.
Сообщение15.03.2020, 00:51 
Никак. Сам по себе XML о форматировании ничего не знает. А вообще для конвертации между разными текстовыми форматами есть Pandoc.

 
 
 
 Re: Преобразовать .txt в .xml. Python.
Сообщение15.03.2020, 01:59 
arseniiv в сообщении #1444899 писал(а):
Никак.

Хорошо, а в каком направлении тогда стоит искать для решения задачи хранения больших форматированных текстов и их отображения на сайте? Может быть просто хранить в виде текстовых файлов в NoSQL DB, а при загрузке на сайт парсить текст?

 
 
 
 Re: Преобразовать .txt в .xml. Python.
Сообщение15.03.2020, 02:32 
optimden в сообщении #1444904 писал(а):
Хорошо, а в каком направлении тогда стоит искать для решения задачи хранения больших форматированных текстов и их отображения на сайте?
Если основной результат - это сайт, то можно просто все перегонять в HTML, и в нем и хранить. Но на самом деле можно использовать более-менее любой язык разметки, какой удобнее. Если это беллетристика или аналогичные тексты - Markdown, FictionBook и т.п.

 
 
 
 Re: Преобразовать .txt в .xml. Python.
Сообщение15.03.2020, 07:55 
optimden в сообщении #1444904 писал(а):
Хорошо, а в каком направлении тогда стоит искать для решения задачи хранения больших форматированных текстов и их отображения на сайте?

Во первых, всегда стоит хранить оригиналы файлов - те самые txt, rtf, doc. Поскольку никто вам не даст гарантии, что при преобразовании в какой-то другой формат сложного форматирования у вас оно не развалится (особенно для doc актуально). Никакая БД для этого не нужно, храните просто на файловой системе, а в БД - только идентификаторы, по которым сможете файл найти.
Преобразовывать во что-то, возможно, стоит чтобы ускорить отображение файлов - преобразуете при загрузке файла в сервис, а при запросе отдаете уже готовый документ. Чтобы при каждом запросе не преобразовывать. Но опять же, не нужно многомегабайтные документы, независимо от формата, хранить в БД, для этого отлично подходит файловая система. БД предназначены не для этого.

 
 
 [ Сообщений: 5 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group