2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Преобразовать .txt в .xml. Python.
Сообщение14.03.2020, 23:04 


21/02/19
108
Здравствуйте. Пишу сайт библиотеки на django. Предполагается хранить тексты книг в БД в формате xml (не обязательно как xml файл, можно просто в виде текста с xml разметкой) или html. Но изначальные тексты будут в формате .txt, .rtf или .doc. Как преобразовать эти форматы в .xml с сохранением исходного форматирования с помощью python?

 Профиль  
                  
 
 Re: Преобразовать .txt в .xml. Python.
Сообщение15.03.2020, 00:51 
Заслуженный участник


27/04/09
28128
Никак. Сам по себе XML о форматировании ничего не знает. А вообще для конвертации между разными текстовыми форматами есть Pandoc.

 Профиль  
                  
 
 Re: Преобразовать .txt в .xml. Python.
Сообщение15.03.2020, 01:59 


21/02/19
108
arseniiv в сообщении #1444899 писал(а):
Никак.

Хорошо, а в каком направлении тогда стоит искать для решения задачи хранения больших форматированных текстов и их отображения на сайте? Может быть просто хранить в виде текстовых файлов в NoSQL DB, а при загрузке на сайт парсить текст?

 Профиль  
                  
 
 Re: Преобразовать .txt в .xml. Python.
Сообщение15.03.2020, 02:32 
Заслуженный участник


09/05/12
25179
optimden в сообщении #1444904 писал(а):
Хорошо, а в каком направлении тогда стоит искать для решения задачи хранения больших форматированных текстов и их отображения на сайте?
Если основной результат - это сайт, то можно просто все перегонять в HTML, и в нем и хранить. Но на самом деле можно использовать более-менее любой язык разметки, какой удобнее. Если это беллетристика или аналогичные тексты - Markdown, FictionBook и т.п.

 Профиль  
                  
 
 Re: Преобразовать .txt в .xml. Python.
Сообщение15.03.2020, 07:55 


08/12/17
340
optimden в сообщении #1444904 писал(а):
Хорошо, а в каком направлении тогда стоит искать для решения задачи хранения больших форматированных текстов и их отображения на сайте?

Во первых, всегда стоит хранить оригиналы файлов - те самые txt, rtf, doc. Поскольку никто вам не даст гарантии, что при преобразовании в какой-то другой формат сложного форматирования у вас оно не развалится (особенно для doc актуально). Никакая БД для этого не нужно, храните просто на файловой системе, а в БД - только идентификаторы, по которым сможете файл найти.
Преобразовывать во что-то, возможно, стоит чтобы ускорить отображение файлов - преобразуете при загрузке файла в сервис, а при запросе отдаете уже готовый документ. Чтобы при каждом запросе не преобразовывать. Но опять же, не нужно многомегабайтные документы, независимо от формата, хранить в БД, для этого отлично подходит файловая система. БД предназначены не для этого.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 5 ] 

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group