2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу 1, 2, 3  След.
 
 Очередное шапито при парсинге: символ 160
Сообщение09.03.2020, 21:35 


10/03/16
3995
Aeroport
Пробел курильщика: __ __ (между подчеркиваниями пробел)
Пробел нормального человека: __ __

Почему, для чего кому-то понадобилось два вида пробелов? Или может быть их не 2, а 32??

 Профиль  
                  
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение09.03.2020, 21:51 
Заслуженный участник


28/04/09
1933
Неразрывный пробел в типографике — вещь незаменимая. И да, пробелов целая куча: есть ещё короткий, короткий неразрывный и т.д.

 Профиль  
                  
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение09.03.2020, 21:55 


10/03/16
3995
Aeroport
EtCetera

Thanks! Да уж, весело. А где посмотреть их коды? И есть ли какие-то другие символы, у которых такая же петрушка?

 Профиль  
                  
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение09.03.2020, 21:59 
Заслуженный участник


09/05/12
25179
ozheredov в сообщении #1443933 писал(а):
И есть ли какие-то другие символы, у которых такая же петрушка?
Разные виды тире, запятых, кавычек сойдут?

 Профиль  
                  
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение09.03.2020, 22:08 
Заслуженный участник


28/04/09
1933
ozheredov в сообщении #1443933 писал(а):
А где посмотреть их коды?
Так вроде по ссылкам на Википедию в моём сообщении все коды, которые могут потребоваться, есть. Кроме кодов запуска баллистических ракет.

 Профиль  
                  
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение09.03.2020, 22:09 


10/03/16
3995
Aeroport
Pphantom

Ладно, я уже понял. "Неразрывный пробел" я победил, далее буду решать проблемы по мере их поступления. И молиться, чтоб они не поступали ))

-- 09.03.2020, 22:11 --

EtCetera в сообщении #1443937 писал(а):
Кроме кодов запуска баллистических ракет.


С удовольствием бы жахнул баллистической ракетой по изобретателям всей этой байды.

 Профиль  
                  
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение09.03.2020, 23:49 
Заслуженный участник


27/04/09
28128
ozheredov в сообщении #1443933 писал(а):
И есть ли какие-то другие символы, у которых такая же петрушка?
Есть. Уникод велик, богат и частично противоречив. (Но создаваясь, чтобы выполнить некоторые определённые цели, типа совместимости со старинными кодировками, он ещё легко отделался.)

ozheredov в сообщении #1443939 писал(а):
С удовольствием бы жахнул баллистической ракетой по изобретателям всей этой байды.
Не надо. Представлять человеческие тексты — задача весьма нетривиальная даже сама по себе. Аналог уникода мог бы с большой вероятностью быть даже ещё хуже. Но NBSP это очень полезная штука, как и ZWSP, или например ZWNJ (что уже из совсем другой оперы, но для разнообразия пусть). Тонкие пробелы тоже полезны, их место например как разделителей инициалов в том числе в русской типографике (а то некоторые набирают их вплотную, что вообще кошмар).

    Л. Н. Толстой ← обычный, не айс
    Л. Н. Толстой ← ☆★☆★☆
    Л.Н.Толстой ← никакой, не айс
    Л.​Н.​Толстой ← нулевой ширины, типографике по барабану и ровно так же не айс

Или например фигурный пробел, полезный для позиционирования арабскоцифренных чисел, в большей части шрифтов имеющих одинаковую ширину, без дополнительных проблем:

     289,505 коровы
      11,3   лошади
    5730,06  овцы

Ну ладно, это уже не так нужно, но есть вещи нужные. И всякие нормализации, языкозависимые изменения регистра (правда могли бы для турецкого языка ввести четыре новых буквы, чтобы правила перевода из регистра в регистр были чуточку попроще; сейчас для турецкого I ↔ ı и İ ↔ i, но для большинства латинописьменных языков I ↔ i, и это те же два кодпойнта, что в соответствии выше).

 Профиль  
                  
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение10.03.2020, 00:59 


10/03/16
3995
Aeroport
arseniiv

Не, ну красивый текст это круто. Пока не начнёшь его парсить )))

arseniiv в сообщении #1443964 писал(а):
289,505 коровы
11,3 лошади
5730,06 овцы
Ну ладно, это уже не так нужно


По мне, как раз одно из самых нужных -- визуально структурированные документы сильно облегчают вникание в них. Кстати, ща заценим, как будет выглядеть при цитировании )

-- 10.03.2020, 01:01 --

Никак. Видите, движок все пробелы превратил в обычные (

 Профиль  
                  
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение10.03.2020, 01:22 
Заслуженный участник


27/04/09
28128
ozheredov в сообщении #1443973 писал(а):
Никак. Видите, движок все пробелы превратил в обычные (
Он ещё над чем-то так издевается не по-допустимому.

ozheredov в сообщении #1443973 писал(а):
По мне, как раз одно из самых нужных -- визуально структурированные документы сильно облегчают вникание в них.
Да, но это большей частью забота не этого уровня, а более высоких, типа спецификаций текстовых форматов разметки или форматов как-их-там-зовут-по-нормальному-документов-типа-вордовских.

-- Вт мар 10, 2020 03:27:22 --

В конце концов пробелов подходящей ширины не напасёшься даже для других видов цифр (кажется, не для всех есть традиции делать их одной ширины; даже для европейских полно шрифтов, где ширина цифр разная).

 Профиль  
                  
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение10.03.2020, 02:30 
Заслуженный участник
Аватара пользователя


30/01/06
72407
arseniiv в сообщении #1443964 писал(а):
в русской типографике (а то некоторые набирают их вплотную, что вообще кошмар)

Напомню, что общение на форуме и в других местах интернета - это не типографика.

arseniiv в сообщении #1443964 писал(а):
Или например фигурный пробел

О, пригодится.

 Профиль  
                  
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение10.03.2020, 02:39 
Заслуженный участник


27/04/09
28128
Munin в сообщении #1443986 писал(а):
Напомню, что общение на форуме и в других местах интернета - это не типографика.
А я и не про форум. Все мы иногда пишем длинные тексты, которые хочется сделать красиво. Хотя нет, я и про форум не согласен. Я же ставлю ёлочки и иногда лапки. И декоративные ❦ разделители. И так можно и до отрицания пользы формул в хозяйстве дойти.

 Профиль  
                  
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение10.03.2020, 03:04 
Заслуженный участник
Аватара пользователя


30/01/06
72407
arseniiv в сообщении #1443964 писал(а):
правда могли бы для турецкого языка ввести четыре новых буквы

Не поможет. Эти правила всё равно будут языко-зависимые.

arseniiv в сообщении #1443979 писал(а):
даже для европейских полно шрифтов, где ширина цифр разная

Стандартно в шрифтах всё-таки цифры моноширинные, даже если сам шрифт не.

А больше всего "удовольствия" в Unicode от направления текста (слева направо или справа налево). Впрочем, ещё правила лигатур доставляют.

-- 10.03.2020 03:06:06 --

arseniiv в сообщении #1443987 писал(а):
Все мы иногда пишем длинные тексты, которые хочется сделать красиво.

Вот пускай их делают красиво те, чья задача делать красиво. Чья работа. Кому за это платят. А нам хватит по-простенькому.

 Профиль  
                  
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение10.03.2020, 03:13 
Заслуженный участник


27/04/09
28128
Munin в сообщении #1443989 писал(а):
Не поможет. Эти правила всё равно будут языко-зависимые.
Да, есть много других вещей, так же просто не исправимых.

Munin в сообщении #1443989 писал(а):
Стандартно в шрифтах всё-таки цифры моноширинные, даже если сам шрифт не.
А как же единица, она не так редко тоньше.

Munin в сообщении #1443989 писал(а):
А больше всего "удовольствия" в Unicode от направления текста (слева направо или справа налево). Впрочем, ещё правила лигатур доставляют.
Ещё сверху вниз. И это ещё не всё.

 Профиль  
                  
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение10.03.2020, 03:41 
Заслуженный участник
Аватара пользователя


30/01/06
72407
arseniiv в сообщении #1443990 писал(а):
А как же единица, она не так редко тоньше.

Она по внешнему виду тоньше, но по размеру символа занимает полное знакоместо. (Помню, как-то про это А.Лебедев писал.)

arseniiv в сообщении #1443990 писал(а):
Ещё сверху вниз.

О, это я устарел.

 Профиль  
                  
 
 Re: Очередное шапито при парсинге: символ 160
Сообщение10.03.2020, 04:08 
Аватара пользователя


14/12/17
1472
деревня Инет-Кельмында
ozheredov в сообщении #1443973 писал(а):
Не, ну красивый текст это круто. Пока не начнёшь его парсить )))

Если использовать готовые классы вроде isspace, isdigit, isletter, все снова хорошо. А если каждый раз перечислять коды, то конечно будут ошибки.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 40 ]  На страницу 1, 2, 3  След.

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group