2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3  След.
 
 
Сообщение21.06.2007, 17:09 
Заслуженный участник
Аватара пользователя


17/10/05
3709
:evil:
FP писал(а):
Бедный Билл. Он как-то и не подумал о русском языке,

Как что, так сразу Билла пинать! А чего стоят эти тупицы из ANSI (американского института стандартов)? Они что, не знают, что первая потребность американского программиста — ввод текста на тамильском и мандарине?! Я уж не говорю про неприличие (EBCDIC), произведенный ИБМ.

OZH писал(а):
На мой взгляд, ключевая проблема --- это проблема кодировок, а, точнее, так и не решённая проблема представления текстовой информации.

Я не понимаю, в чем проблема? Я пишу в обычном стареньком $\LaTeX$ в UTF-8, и давно думать забыл о кодировках. Пока у меня проблем с представлением текста не было. Есть, конечно, всегда фокусы с представлением математических символов, но они не имеют отношения к кодировке.
Код:
\usepackage{ucs}

 Профиль  
                  
 
 
Сообщение21.06.2007, 17:25 


14/06/07
73
незваный гость писал(а):
Как что, так сразу Билла пинать! А чего стоят эти тупицы из ANSI (американского института стандартов)? Они что, не знают, что первая потребность американского программиста — ввод текста на тамильском и мандарине?! Я уж не говорю про неприличие (EBCDIC), произведенный ИБМ.

А уже традиция его поминать (ой, кажется, не то слово). В ANSI и не думали. Зачем в то время для "мандаринских" счет кодировка?

 Профиль  
                  
 
 
Сообщение21.06.2007, 18:38 


04/02/06
122
СПИИРАН
FP писал(а):
Каждому времени - свои возможности.


Вот я и хочу, чтобы нынешнему времени соответствовали современные возможности. А нам предлагают тянуть из прошлого шлейф "совместимости".

Погоня за совметимостью --- это второе преступление программистской индустрии. Вместо разработки простых в обращении конверторов и обощённых форматов, мы получаем ад обратной (?) совместимости.

Почему HTML стал так популярен? Именно потому, что в нём реализована идея обобщённого формата, позволяющая разрабатывать браузеры, ориентируясь на единую спецификацию. Но и тут немного намудрили. Не говоря уже и о том, что в HTML смешались комманды логической организации документа и комманды форматирования. Впрочем, это --- проблема любого языка разметки. В ТеХе с это дело обстоит несколько лучше. Но и тут имеется узость реализации, когда мы ограничены лишь определёнными логическими уровнями разделов и подразделов. Как бы упростилась жизнь, если бы был разработан обобщённый формат представления электронных публикаций, который допускал бы довольно широкие преобразования над текстом, начиная с простого цитирования, и кончая т.н. трансвключением. А предметные указатели? В приличных книгах они обязательно присутствуют. Хорошо проработанный индекс --- золог того, что нужную информацию будет легко найти. А как в электронном варианте?

FP писал(а):
уже давно существует ТеХ на базе Юникода


Я почему-то не думаю, что Юникод является хорошим решением. Насколько я понимаю, Юникод --- это просто очень широкое адресное пространство, где есть место всем необходимым символам. Чем же это отличается от одного байта? Нет структурной революции. А, значит, остаются теже вопросы.

 Профиль  
                  
 
 
Сообщение21.06.2007, 18:48 
Заслуженный участник
Аватара пользователя


17/10/05
3709
:evil:
OZH писал(а):
Насколько я понимаю, Юникод --- это просто очень широкое адресное пространство, где есть место всем необходимым символам. Чем же это отличается от одного байта? Нет структурной революции. А, значит, остаются теже вопросы.

А какая структурная революция в кодировке Вам нужна? Основная проблема кодировочных таблиц — что они меняются от текста к тексту. В значительной степени Юникод позволяет от этого уйти. Какие вопросы остаются?

Вопросы семантической и представительской разметки текста никакого отношения к кодировке не имеют, если Вы о них.

Чем Юникод «отличается от одного байта»? Тем, что «есть место всем необходимым символам».

OZH писал(а):
это второе преступление программистской индустрии

А какое первое? И, кстати, неужели Вы думаете, что это индустрия хочет тратить деньги на совместимость? Попробуйте оценить затраты на legacy, и Вам станет дурно. Ни один программист, ни одна компания не хочет. Но рынок (пользователи) заставляют.

 Профиль  
                  
 
 
Сообщение21.06.2007, 19:24 


04/02/06
122
СПИИРАН
незваный гость писал(а):
Я не понимаю, в чем проблема?


Может быть, проблемы не существует, и я напрасно гоню волну. Но я хочу обратить Ваше внимание на то, что, например, точка в конце предложения и точка в качестве оператора обращения к компоненту (полю) и точка в имени файла --- это разные точки. Должны существовать классы символов, сигналом попадания в который является не попадание кода символа в определённый диапазон (как это везде выходит: было, есть и будет), а соответствие сигнатуры данного символа определённому типу. Такое возможно только при векторно-иерархическом кодировании символов: (системный символ/кодовый символ/текстовый символ)(комманда/оператор/знак национального алфавита/знак препинания)(начертание)... Можно было бы и поточнее, тут целую теорию развить, можно было бы...

Когда Вы подводите к слову курсор мышки, то Вы должны видеть, на каком языке это слово написано. Буква А тоже должна быть своя в каждом алфавите, даже если эта буква --- общая для множества алфавитов. Просто функция текстового поиска должна знать, к какому языку относится тот или иной символ. Не говоря уже и том, что диакритические знаки должны связывать как простые символы, так и нагруженные в единое целое, как это происходит в математике, когда, например, вы знаете, что x --- это оригинал, а x^* --- это наилучшее приближение в гил(ь)бертовом пространстве.

И тогда и математики, и лингвисты вздохнут свободно, и наступит бум электронных библиотек. Или... я всё придумал, и ничего из сказанного мною не случится?

Добавлено спустя 21 минуту 50 секунд:

незваный гость писал(а):
Основная проблема кодировочных таблиц —
что они меняются от текста к тексту.


Основная проблема кодировок (на мой непросвещённый взгляд) --- это их линейность.

незваный гость писал(а):
Чем Юникод «отличается от одного байта»? Тем, что «есть место всем необходимым символам».


Скажите, а как как у нас в Юникоде описываются символы различных языков? Язык №1: [1:M]. Язык №2: [M+1:M+N]. Так? Это и есть линейность.

незваный гость писал(а):
Но рынок (пользователи) заставляют.


А поподробнее можно? Только кратко. А то тут уже много тем различных затронуто. (Можно открыть отдельную нить. Если нужно. Кому-нибудь ещё, кроме нас.)

 Профиль  
                  
 
 
Сообщение21.06.2007, 22:38 
Заслуженный участник
Аватара пользователя


17/10/05
3709
:evil:
OZH писал(а):
незваный гость писал(а):
Но рынок (пользователи) заставляют.
А поподробнее можно? Только кратко. А то тут уже много тем различных затронуто. (Можно открыть отдельную нить. Если нужно. Кому-нибудь ещё, кроме нас.)

Если Вам интересно, давайте откроем тему в Computer Science. Нас двоих достаточно.

OZH писал(а):
…например, точка в конце предложения и точка в качестве оператора обращения к компоненту (полю) и точка в имени файла --- это разные точки.

Позволю себе не согласится. Это — одна и та же точка, но несущая разную смысловую нагрузку. Как буква «б» может нести разную нагрузку в зависимости от контекста

OZH писал(а):
то Вы должны видеть, на каком языке это слово написано

А не слишком ли много? Для этого придется вводить гораздо больше информации, чем мы хотим. Я, exampli grata, склонен злоупотреблять латинскими словечками. Но отмечать их в тексте, как латынь — лениво. А без этого не слишком ли много мы хотим от компа? chez-longe — это на каком языке? Английский? итальянский? или все-таки французский?

OZH писал(а):
Буква А тоже должна быть своя в каждом алфавите, даже если эта буква --- общая для множества алфавитов.

Вы не смешиваете здесь алфавиты и языки? Буква A в латинице одна, в кириллице — другая, в греческом — третья. Но зачем латиницу разделять по языкам?

Не то, чтобы Ваше предложение невозможно. Но оно крайне непрактично. представьте себе: на данный момент я знаю и переключаю две клавиатуры. Если для набора слова на французком мне будет нужен еще один язык, мне нужен еще один расклад?

Позволю себе некоторое обобщение: люди часто смешивают символы и глифы. Глифы у А в разных алфавитах похожи, но это разные символы. С другой стороны, один и тот же символ может соответствовать очень разным глифам (в зависимости от шрифта).

И еще одно: мне кажется, что развитие идет в направлении выделения информации из контекста. В частности, комп сможет автоматически опознавать язык (так же, как Ворд сегодня опознает адрес, чёрт бы его побрал). Но разделение символов, тем более незаметное глазу — это, на мой взгляд, плохая идея.

Добавлено спустя 37 минут 29 секунд:

OZH писал(а):
Скажите, а как как у нас в Юникоде описываются символы различных языков?

Все гораздо хуже. Юникод не описывает символы языков. Он описывает символы алфавитов. Поэтому символы, отноящиеся к алфавиту того или иного языка могут быть разбросаны достаточно произвольно.

Полагаю, что это необходимый компромисс. Кроме того, есть ли желающие иметь отдельный алфавит Java? C++? Но ведь тоже языки…

И еще вопрос: Вы предлагаете разделять алфавиты языков. А как Вы многоточие пишете? ... или …? Почему? Ленитесь? А вводить разные точки не будет муторно?

 Профиль  
                  
 
 
Сообщение21.06.2007, 23:25 


14/06/07
73
незваный гость писал(а):
Не то, чтобы Ваше предложение невозможно. Но оно крайне непрактично. представьте себе: на данный момент я знаю и переключаю две клавиатуры. Если для набора слова на французком мне будет нужен еще один язык, мне нужен еще один расклад?

Что-то подобное я уже видел. Линотип. На клавиатуре много значков, на пол-стола (изобретение - 1884 год).

 Профиль  
                  
 
 
Сообщение22.06.2007, 03:18 
Заслуженный участник


15/05/05
3445
USA
OZH писал(а):
Может быть, проблемы не существует, и я напрасно гоню волну. Но я хочу обратить Ваше внимание на то, что, например, точка в конце предложения и точка в качестве оператора обращения к компоненту (полю) и точка в имени файла --- это разные точки. Должны существовать классы символов, ... Такое возможно только при векторно-иерархическом кодировании символов
В таких случаях вместо усложнения кодировки символов применяются языки разметки текста, например, столь модный сейчас XML. В Вашем примере вместо использования разных кодировок для разных точек соответствующие группы символов можно отмечать атрибутами "текст естественного языка", "оператор языка программирования" или "имя файла". То есть явно указывается контекст.

FP писал(а):
Что-то подобное я уже видел. Линотип. На клавиатуре много значков, на пол-стола.
Другое аналогичное устройство - пишущая машинка для китайского языка.

 Профиль  
                  
 
 
Сообщение22.06.2007, 09:05 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
По поводу клавиатур: здесь описана новинка, где каждая клавиша - это мини-экран. Вероятно, при переключении раскладок значки на клавишах будут меняться. Правда, цена пока что заявлена совершенно заоблачная, но я почти не сомневаюсь, что через какое-то время она станет более реальной.

 Профиль  
                  
 
 
Сообщение22.06.2007, 11:31 


04/02/06
122
СПИИРАН
незваный гость писал(а):
Если Вам интересно, давайте откроем тему в Computer Science.


Разумеется. Но позже. Если можно.

незваный гость писал(а):
Нас двоих достаточно.


Судя по всему, есть ещё желающие.

незваный гость писал(а):
Вы не смешиваете здесь алфавиты и языки?


Тут очень важен терминологический вопрос. Поэтому обсуждению придётся предпослать небольшую мат. часть.

незваный гость писал(а):
Если для набора слова на французком мне будет нужен еще один язык, мне нужен еще один расклад?


Возникающие возражения, скорее всего, вызваны тем, что ещё не до конца представляют саму технологию использования. Но я и сам ещё не обо всём подумал и не всё продумал. У меня есть пока только идея, частично уже высказанная.

Когда Вы набираете текст, то Вы, в идеале, должны находится в режиме выбранного Вами языка. Привычная нам клавиатура --- плохой помошник в этом деле.

PAV писал(а):
По поводу клавиатур: здесь описана новинка, где каждая клавиша - это мини-экран.


Да, я слышал об этом.

Yuri Gendelman писал(а):
В Вашем примере вместо использования разных кодировок для разных точек соответствующие группы символов можно отмечать атрибутами "текст естественного языка", "оператор языка программирования" или "имя файла".


Когда я говорю о векторно-иерархическом кодировании, я нечто похожее и имею в виду. Только язык разметки это всё описывает явно в текстовом виде, а в кодах это может быть представлено более компактно. А текстовое описание в виде XML может быть одним из представлений такого кода.

У меня всегда происходило так, что когда я с чем-то сталкиваюсь, я задумываюь об обощении. Когда-то я недоумевал, почему необходимо иметь множество разношёрстных форматов бинарных файлов, когда можно всё описать явно в текстовом виде; потом пришёл HTML. Когда я столкнулся с HTML, то мне стало нехватать структурности; пришёл XML...

Я воспринимаю ситуацию так: каждая новая технология пытается разрешить недостатки предыдущей, а всё их раpвитие направлено на то, чтобы разрешить проблемы, "зашитые" в исходную технологию ещё в самом начале. Вот я и задумываюь над тем, каким могла бы выглядеть технология, иная ещё в самом начале. Как говорил Эдмунд Гуссерль, "мир мог быть и нным". Но мы живём в этом мире, поэтому нам приходится максимально учитываеть его свойства, а не желаемые и воображаемые нами возможности.

P.S.

незваный гость писал(а):
А как Вы многоточие пишете? ... или …? Почему? Ленитесь? А вводить разные точки не будет муторно?


Ничего не понимаю! Пишу

Код:
...


и всё. Ну, иногда использую

Код:
\dots


и что? Я ещё с некоторых пор, стал окружать числа знаками \$\dots\$ и писать (например):

Код:
$1$


Что Вас интересует?

 Профиль  
                  
 
 
Сообщение22.06.2007, 17:28 
Заслуженный участник
Аватара пользователя


17/10/05
3709
:evil:
PAV писал(а):
По поводу клавиатур: здесь описана новинка

Любопытно, что этой новинке сто лет в обед (по крайней мере, идее). Я слышал о выпуске подобных (нецветных, правда) клавиатур югославами в 80х для графических станций Ирис. Правда или нет — не знаю.

Но на нужды OZH она не отвечает: всё равно расклады нужно переключать.

Не думаю, кстати, что такая клава быстро станет массовой. Большинство (по крайней мере, большинство подрастающего поколения) печатает вслепую, и им рисунки на клавишах не очень нужны. Остаются нишевые рынки: геймеры и т.п. Этим цена не страшна, но от них просачивается вниз медленно и не все.

OZH писал(а):
Когда Вы набираете текст, то Вы, в идеале, должны находится в режиме выбранного Вами языка.

Это если Вы говорите всю жизнь на одном языке.

Приведу пример: если Вы читали худ.литературу на английском (изданную там), то Вы могли заметить, что вкрапления иных языков никак не отмечаются. Не отмечается и язык вкрапления. (В «Маятнике Фуко» У.Эко большой эпиграф на иврите. Его никто в сноске, в отличии от русского перевода, не переводит.) Предполагается, что читатель поймет без костылей.

Более того, когда я пишу, последнее, что меня заботит — это на каком языке стоит клава. Мне бы в букву попасть.

OZH писал(а):
Ничего не понимаю! Пишу…

Именно! Когда Вы пишете на форуме, Вы не используете многоточие: Вы используете три точки. На форумах, при наборе e-mail, web-страницы очень часто пренебрегают полиграфическими изысками.

Но ведь это неправильно (согласно Вашей логике)! … — это не «. . .». Просто набирать многоточие неудобно. Я это делаю, но в основном — из пижонства (как всем известно, «пижонство — это частный случай многоженства при числе жен равном $\pi$»). Хотя, не буду скрывать, на мой взгляд, грамотно подготовленный текст читать удобнее.

Так и вся эта идея со разделением семантики символов: проще набирать одну-единственную точку, и предоставлять компу догадываться, что она значит.

 Профиль  
                  
 
 
Сообщение27.06.2007, 08:31 


04/02/06
122
СПИИРАН
:roll: Так всё-таки, как набирается многоточие? :oops:

 Профиль  
                  
 
 
Сообщение27.06.2007, 12:06 
Заслуженный участник
Аватара пользователя


26/11/06
696
мехмат
OZH писал(а):
:roll: Так всё-таки, как набирается многоточие? :oops:


Многоточие набирается с помощью команды \ldots. Если ставить три точки подряд (...), то между ними окажутся слишком маленькие пробелы.

 Профиль  
                  
 
 
Сообщение27.06.2007, 16:15 
Заслуженный участник


19/06/05
486
МГУ
Кажется, здесь речь о различии одного символа … (многоточие) с кодом 0х85 и трех символов . (точка) с кодом 0х2Е каждая.

Первое многоточие можно набирать через таблицу символов (Пуск->Программы->Стандартные->Служебные->Таблица символов). MS Word, кстати, сам умеет преобразовывать три точки подряд в такое многоточие (вот, как бы уже и второй способ). А наверняка существует комбинация клавиш, с помощью которой такое многоточие набирается (по моему оно использует дополнительную клавиатуру (которая справа, с цифрами от 0 до 9 и еще несколькими кнопками), поэтому мне недоступно :D ).

 Профиль  
                  
 
 
Сообщение27.06.2007, 18:59 
Экс-модератор


12/06/05
1595
MSU
Если вы знаете код символа в ASCII-таблице (число от 0 до 255), то можно зажать Alt и набрать на дополнительной клавиатуре этот код (в десятичной системе счисления). Получится символ из таблицы.
Там, например, такое есть:
☺☻♥♦♣♠•◘○◙♂♀♪♫☼►◄↕‼¶§▬↨↑↓→←∟↔
Но многоточия там нет.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 32 ]  На страницу Пред.  1, 2, 3  След.

Модератор: Модераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group