2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу 1, 2, 3  След.
 
 Очередное шапито при парсинге: символ 160
Сообщение09.03.2020, 21:35 
Пробел курильщика: __ __ (между подчеркиваниями пробел)
Пробел нормального человека: __ __

Почему, для чего кому-то понадобилось два вида пробелов? Или может быть их не 2, а 32??

 
 
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение09.03.2020, 21:51 
Неразрывный пробел в типографике — вещь незаменимая. И да, пробелов целая куча: есть ещё короткий, короткий неразрывный и т.д.

 
 
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение09.03.2020, 21:55 
EtCetera

Thanks! Да уж, весело. А где посмотреть их коды? И есть ли какие-то другие символы, у которых такая же петрушка?

 
 
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение09.03.2020, 21:59 
ozheredov в сообщении #1443933 писал(а):
И есть ли какие-то другие символы, у которых такая же петрушка?
Разные виды тире, запятых, кавычек сойдут?

 
 
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение09.03.2020, 22:08 
ozheredov в сообщении #1443933 писал(а):
А где посмотреть их коды?
Так вроде по ссылкам на Википедию в моём сообщении все коды, которые могут потребоваться, есть. Кроме кодов запуска баллистических ракет.

 
 
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение09.03.2020, 22:09 
Pphantom

Ладно, я уже понял. "Неразрывный пробел" я победил, далее буду решать проблемы по мере их поступления. И молиться, чтоб они не поступали ))

-- 09.03.2020, 22:11 --

EtCetera в сообщении #1443937 писал(а):
Кроме кодов запуска баллистических ракет.


С удовольствием бы жахнул баллистической ракетой по изобретателям всей этой байды.

 
 
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение09.03.2020, 23:49 
ozheredov в сообщении #1443933 писал(а):
И есть ли какие-то другие символы, у которых такая же петрушка?
Есть. Уникод велик, богат и частично противоречив. (Но создаваясь, чтобы выполнить некоторые определённые цели, типа совместимости со старинными кодировками, он ещё легко отделался.)

ozheredov в сообщении #1443939 писал(а):
С удовольствием бы жахнул баллистической ракетой по изобретателям всей этой байды.
Не надо. Представлять человеческие тексты — задача весьма нетривиальная даже сама по себе. Аналог уникода мог бы с большой вероятностью быть даже ещё хуже. Но NBSP это очень полезная штука, как и ZWSP, или например ZWNJ (что уже из совсем другой оперы, но для разнообразия пусть). Тонкие пробелы тоже полезны, их место например как разделителей инициалов в том числе в русской типографике (а то некоторые набирают их вплотную, что вообще кошмар).

    Л. Н. Толстой ← обычный, не айс
    Л. Н. Толстой ← ☆★☆★☆
    Л.Н.Толстой ← никакой, не айс
    Л.​Н.​Толстой ← нулевой ширины, типографике по барабану и ровно так же не айс

Или например фигурный пробел, полезный для позиционирования арабскоцифренных чисел, в большей части шрифтов имеющих одинаковую ширину, без дополнительных проблем:

     289,505 коровы
      11,3   лошади
    5730,06  овцы

Ну ладно, это уже не так нужно, но есть вещи нужные. И всякие нормализации, языкозависимые изменения регистра (правда могли бы для турецкого языка ввести четыре новых буквы, чтобы правила перевода из регистра в регистр были чуточку попроще; сейчас для турецкого I ↔ ı и İ ↔ i, но для большинства латинописьменных языков I ↔ i, и это те же два кодпойнта, что в соответствии выше).

 
 
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение10.03.2020, 00:59 
arseniiv

Не, ну красивый текст это круто. Пока не начнёшь его парсить )))

arseniiv в сообщении #1443964 писал(а):
289,505 коровы
11,3 лошади
5730,06 овцы
Ну ладно, это уже не так нужно


По мне, как раз одно из самых нужных -- визуально структурированные документы сильно облегчают вникание в них. Кстати, ща заценим, как будет выглядеть при цитировании )

-- 10.03.2020, 01:01 --

Никак. Видите, движок все пробелы превратил в обычные (

 
 
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение10.03.2020, 01:22 
ozheredov в сообщении #1443973 писал(а):
Никак. Видите, движок все пробелы превратил в обычные (
Он ещё над чем-то так издевается не по-допустимому.

ozheredov в сообщении #1443973 писал(а):
По мне, как раз одно из самых нужных -- визуально структурированные документы сильно облегчают вникание в них.
Да, но это большей частью забота не этого уровня, а более высоких, типа спецификаций текстовых форматов разметки или форматов как-их-там-зовут-по-нормальному-документов-типа-вордовских.

-- Вт мар 10, 2020 03:27:22 --

В конце концов пробелов подходящей ширины не напасёшься даже для других видов цифр (кажется, не для всех есть традиции делать их одной ширины; даже для европейских полно шрифтов, где ширина цифр разная).

 
 
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение10.03.2020, 02:30 
Аватара пользователя
arseniiv в сообщении #1443964 писал(а):
в русской типографике (а то некоторые набирают их вплотную, что вообще кошмар)

Напомню, что общение на форуме и в других местах интернета - это не типографика.

arseniiv в сообщении #1443964 писал(а):
Или например фигурный пробел

О, пригодится.

 
 
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение10.03.2020, 02:39 
Munin в сообщении #1443986 писал(а):
Напомню, что общение на форуме и в других местах интернета - это не типографика.
А я и не про форум. Все мы иногда пишем длинные тексты, которые хочется сделать красиво. Хотя нет, я и про форум не согласен. Я же ставлю ёлочки и иногда лапки. И декоративные ❦ разделители. И так можно и до отрицания пользы формул в хозяйстве дойти.

 
 
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение10.03.2020, 03:04 
Аватара пользователя
arseniiv в сообщении #1443964 писал(а):
правда могли бы для турецкого языка ввести четыре новых буквы

Не поможет. Эти правила всё равно будут языко-зависимые.

arseniiv в сообщении #1443979 писал(а):
даже для европейских полно шрифтов, где ширина цифр разная

Стандартно в шрифтах всё-таки цифры моноширинные, даже если сам шрифт не.

А больше всего "удовольствия" в Unicode от направления текста (слева направо или справа налево). Впрочем, ещё правила лигатур доставляют.

-- 10.03.2020 03:06:06 --

arseniiv в сообщении #1443987 писал(а):
Все мы иногда пишем длинные тексты, которые хочется сделать красиво.

Вот пускай их делают красиво те, чья задача делать красиво. Чья работа. Кому за это платят. А нам хватит по-простенькому.

 
 
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение10.03.2020, 03:13 
Munin в сообщении #1443989 писал(а):
Не поможет. Эти правила всё равно будут языко-зависимые.
Да, есть много других вещей, так же просто не исправимых.

Munin в сообщении #1443989 писал(а):
Стандартно в шрифтах всё-таки цифры моноширинные, даже если сам шрифт не.
А как же единица, она не так редко тоньше.

Munin в сообщении #1443989 писал(а):
А больше всего "удовольствия" в Unicode от направления текста (слева направо или справа налево). Впрочем, ещё правила лигатур доставляют.
Ещё сверху вниз. И это ещё не всё.

 
 
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение10.03.2020, 03:41 
Аватара пользователя
arseniiv в сообщении #1443990 писал(а):
А как же единица, она не так редко тоньше.

Она по внешнему виду тоньше, но по размеру символа занимает полное знакоместо. (Помню, как-то про это А.Лебедев писал.)

arseniiv в сообщении #1443990 писал(а):
Ещё сверху вниз.

О, это я устарел.

 
 
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение10.03.2020, 04:08 
Аватара пользователя
ozheredov в сообщении #1443973 писал(а):
Не, ну красивый текст это круто. Пока не начнёшь его парсить )))

Если использовать готовые классы вроде isspace, isdigit, isletter, все снова хорошо. А если каждый раз перечислять коды, то конечно будут ошибки.

 
 
 [ Сообщений: 40 ]  На страницу 1, 2, 3  След.


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group