2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу Пред.  1 ... 13, 14, 15, 16, 17, 18, 19  След.

Как вы к этому относитесь?
Хорошо 2%  2%  [ 1 ]
Плохо 94%  94%  [ 62 ]
Мне пофигу 5%  5%  [ 3 ]
Всего голосов : 66
 
 
Сообщение19.06.2007, 23:11 
Заслуженный участник
Аватара пользователя


17/10/05
3709
:evil:
У автора есть альтернатива: пойти в ресторан (издательство с полным обслуживанием), купить обед в кулинарии (что-то, скажем, верстку, сделать самому, и нанять корректора), или приготовить обед самому.

Я ведь не против выбора, я всего лишь не отрицаю его возможность. (И, сильно подозреваю, что профессионал отличит сделанную мной статью от профессионально подготовленной. А вот читатель — нет.) Пусть будут издательства для тех, кто хочет услуг издательства. Но они — уже сейчас понятно — не для всех.

FP писал(а):
Надо попробовать. А FR умеет распознавать формулы? Эта задача не решена и не будет решена в ближайшие 50 лет.

Это не страшно. У меня Понтрягин (Топологические группы), скажем, 38 года. Его и выложим (djvu). Он-то не защищен.

Самое главное: Вы недооцениваете количество труда, которое люди готовы затратить для того, чтобы сделать текст доступным другим. Я уже два года потихонечку делаю OCR «Всадника без головы». Книга 1868 г., шрифты и типография были хреновые, бумага не мелованная (и кислоты до хрена). Кроме того, мне было жаль книгу, и я сканировал ее очень бережно, не разламывая. Вот теперь и мучаюсь… Но (еще через пару лет) — доделаю и выложу в Project Gutenberg.

И напишем специальный OCR для распознавания формул. FR не будет, а Tesseract (например) — будет. Заодно и статью напишем: как мы победили распознавание формул.

Добавлено спустя 37 минут 58 секунд:

FP писал(а):
А он наймет издателя и платить не будет.

Будет! Зачем питать себя иллюзиями. Неявная оплата — это оплата. Нанимая издательство, мы соглашаемся, что все эти расходы идут из нашего кармана (соответственно, уменьшая гонорар).

 Профиль  
                  
 
 
Сообщение19.06.2007, 23:30 


14/06/07
73
незваный гость писал(а):
Я уже два года потихонечку делаю OCR «Всадника без головы». Книга 1868 г., шрифты и типография были хреновые, бумага не мелованная (и кислоты до хрена). Кроме того, мне было жаль книгу, и я сканировал ее очень бережно, не разламывая. Вот теперь и мучаюсь… Но (еще через пару лет) — доделаю и выложу в Project Gutenberg.

Вот и подготовка уже в годы выливается. А стоит ли? Конечно, хобби разное бывает. У кого марки, у кого бабочки. А у вас книга. Ваш выбор.
незваный гость писал(а):
И напишем специальный OCR для распознавания формул. FR не будет, а Tesseract (например) — будет. Заодно и статью напишем: как мы победили распознавание формул.

Не удастся. Хорошо знаю тему. Это сильно отличается от того, чтобы подложку с текстом в djvu встроить. Могу точно сказать - света в конце тоннеля не видать. Возможно решение локальных задач, например, распознавание текстов какого-то одного типа. А статью дай бог к пенсии (внуков). У японцев есть Infinity, который якобы распознает. Попробуйте :D .

 Профиль  
                  
 
 
Сообщение20.06.2007, 00:42 
Заслуженный участник
Аватара пользователя


17/10/05
3709
:evil:
FP писал(а):
У японцев есть Infinity, который якобы распознает. Попробуйте

Может, и попробую, если не только название, но и ссылочку дадите.

В целом я более оптимистично оцениваю развитие CS-технологий.

FP писал(а):
А стоит ли?

«Но у всех молодцов благородная цель». Я не думаю, что эта книга будет издана в ближайшее время. По крайней мере, я не знаю об изданиях после 1905 г.

 Профиль  
                  
 
 
Сообщение20.06.2007, 08:29 


14/06/07
73
незваный гость писал(а):
Может, и попробую, если не только название, но и ссылочку дадите.

http://forum.ru-board.com/topic.cgi?forum=5&topic=12860
На этой странице есть название и некоторые ссылки. Но можно еще в гугле посмотреть. Я приведу только один пример сложности задачи. Возьмем наклонную букву а и греческую альфа из ТеХа. Гарантированно их различить нельзя, они слишком близки. В обычном тексте поможет словарь (и, например, биграммы), а что здесь? Поэтому количество ошибок сильно будет зависеть от качества сканированной страницы. А так как весь разговор относится к старым книгам, то и смысл в таком распознавании пропадает. Решение такой задачи одиночкам не под силу. Рынка програмных продуктов, которые бы использовали распознавание формул, не существует и существовать не будет. Значит и денег на разработку не появится, а это затянет разработку на десятилетия. Пример ТеХа показывает, что и через тридцать лет ничего нового не появилось, упростившего бы набор мат. текстов, хотя это возможно.

 Профиль  
                  
 
 
Сообщение20.06.2007, 10:49 


04/02/06
122
СПИИРАН
Не имея пока возможности всё прочитать, высказывая благодарность всем участникам дискуссии за то, что это именно дискуссия, (что сегодня большая редкость), хочу сделать только одно замечание.

Я думаю, что, порою, проще набрать заново старую книгу, чем пытаться как-то её распозновывать.

Издательство УРСС, как известно (надеюсь), переиздаёт старые книги и во многоих случаях оно не заморачиватся с набором, а просто воспроизводит оригинал. Ну, это как если бы распечатать djvu на ризографе. Это особенно ценно в случае, когда существует полный и точный список канонических опечаток. Зачем же создавать новые при наборе? Тем более, когда при спешке по недосмотру появляются дикие опечатки, полностью меняющие смысл формул и возникающие при ошибочном указании фигурных скобок, обозначающих ТеХовские группы. (Хотя попадаются и набранные книги.)

P.S. У нас в институте принят дикий способ выпуска Трудов института: Вы пишите статью в Word'е, переводите в формат pdf, распечатываете с результата и отдаёте (как бумажный, так и электронный вариант) местным организаторам, те могут несколько раз отказать в приёме статьи из-за полиграфических требований... В конце концов все pdf-файлы собираются во едино, масштабируются до формата A5 и задействуется ризограф. Именно поэтому необходимо использовать Arial12 (для основного текста), чтобы при масштабировании не исчезли тонкие элементы... Можно было бы и в ТеХе, однако для этого необходимо выполнить два условия: 1) создать в Windows аналог определённого шрифта, который есть в ТеХе и удовлетворяет полиграфическим требованиям; 2) сподобить авторов написать что-то в ТеХе (а это, оказывается, большая трудность: не воспринимают). А принимают в pdf потому, что иначе каждый doc-файл будет приходить со своими настройками и просмотр одного и того же файла на разных машинах приводит к различным результатам. Вместо автоматизации, шаблонов и программ, морока ложится на плечи самих авторов...

 Профиль  
                  
 
 
Сообщение20.06.2007, 11:49 


14/06/07
73
OZH писал(а):
Я думаю, что, порою, проще набрать заново старую книгу, чем пытаться как-то её распозновывать.

Спасибо, OZH, за теплые слова. Проще сделать следующим образом. Сначала распознать текст, предварительно спрятав формулы в картинки (чтобы грязи меньше было), а потом руками вставить формулы.
OZH писал(а):
Издательство УРСС, как известно (надеюсь), переиздаёт старые книги и во многоих случаях оно не заморачиватся с набором, а просто воспроизводит оригинал.

Потому книги и дешево продаются по цене мелованной бумаги, в них сэкономлено на всем, чем можно, что опровергает тезис PAVа о нежелании издателей экономить на расходах. Экономят, и идеи им на этот счет даже снятся.
OZH писал(а):
У нас в институте принят дикий способ выпуска Трудов института: Вы пишите статью в Word'е, переводите в формат pdf, распечатываете с результата и отдаёте (как бумажный, так и электронный вариант) местным организаторам, те могут несколько раз отказать в приёме статьи из-за полиграфических требований...

Очень непрофессионально. Это как раз и есть издержки невозможности научить авторов писать в ТеХе. Все таки "макроязык" и тратить несколоько месяцев на его качественное освоение у авторов времени нет. Многие и статьи свои набрать в ТеХе не могут, отдают на сторону. Это серьезная проблема. А когда файлы сливаются из разных источников, то начинается "лебединая песнь", можно стреляться (TeX, LaTeX, AMS c кучей разных пакетов).

 Профиль  
                  
 
 
Сообщение20.06.2007, 12:19 
Экс-админ
Аватара пользователя


23/05/05
2106
Kyiv, Ukraine
незваный гость писал(а):
:evil:
FP писал(а):
У японцев есть Infinity, который якобы распознает. Попробуйте

Может, и попробую, если не только название, но и ссылочку дадите.

http://www.inftyproject.org/en/index.html
http://forum.ru-board.com/topic.cgi?forum=5&topic=12982

 Профиль  
                  
 
 
Сообщение20.06.2007, 13:59 


14/06/07
73
незваный гость писал(а):
Будет! Зачем питать себя иллюзиями. Неявная оплата — это оплата. Нанимая издательство, мы соглашаемся, что все эти расходы идут из нашего кармана (соответственно, уменьшая гонорар).

А неявнвя оплата абсолютно везде. Студент учится на бесплатном отделении, а платят налогоплательщики. Покупая компьютерный журнал за низкую цену, платим также мы, попадаясь на рекламную удочку. В телевизоре - реклама. При выкладывании автором в сеть своего произведения (бесплатно) он вообще не получит гонорара. А если возпользуется сервисом 6 библиотек, получит всего треть. Этот сервих придумал новые идеи ведения бизнеса. Будучи формально розничным магазином, покупает товар за треть цены. Где вы видели такое? ITune отчисляет не менее половины. А торговать они будут в конечном счете всем подряд: и новыми книгами, и старыми. Общественность сканировала, распознавала, вычитывала, а теперь ее труд продают. Так всегда и бывает.

 Профиль  
                  
 
 
Сообщение20.06.2007, 14:30 
Заслуженный участник
Аватара пользователя


01/03/06
13626
Москва
OZH писал(а):
Издательство УРСС, как известно (надеюсь), переиздаёт старые книги и во многоих случаях оно не заморачиватся с набором, а просто воспроизводит оригинал. Ну, это как если бы распечатать djvu на ризографе.
В связи с этим меня давно мучает вопрос: а как обстоят дела с авторскими правами в УРСС?

 Профиль  
                  
 
 
Сообщение20.06.2007, 16:11 


04/02/06
122
СПИИРАН
FP писал(а):
Потому книги и дешево продаются по цене мелованной бумаги, в них сэкономлено на всем, чем можно, что опровергает тезис PAVа о нежелании издателей экономить на расходах. Экономят, и идеи им на этот счет даже снятся.


Скажите спасибо, что переиздают и, при том, в таком виде. Я уже говорил Вам о канонических опечатках.

FP писал(а):
Все таки "макроязык" и тратить несколоько месяцев на его качественное освоение у авторов времени нет. Многие и статьи свои набрать в ТеХе не могут, отдают на сторону. Это серьезная проблема.


Ну-да. Когда они видят:

Код:
\documentclass{article}


то приходят в замешательство. А когда доходят до

Код:
\begin{document}


то с ними случается уже помешательство.

FP писал(а):
А когда файлы сливаются из разных источников, то начинается "лебединая песнь", можно стреляться (TeX, LaTeX, AMS c кучей разных пакетов).


есть такая комманда

Код:
\include ...


Какие проблемы? Только надо преваительно всем авторам разослать стилевой файл и некоторое соглашения о применяемых коммандах.

Brukvalub писал(а):
В связи с этим меня давно мучает вопрос: а как обстоят дела с авторскими правами в УРСС


На что это Вы намекаете?

 Профиль  
                  
 
 
Сообщение20.06.2007, 16:52 


14/06/07
73
OZH писал(а):
Какие проблемы? Только надо преваительно всем авторам разослать стилевой файл и некоторое соглашения о применяемых коммандах.

Время - деньги. Лучше получить в чем угодно, чем ждать, чтобы каждый выучил ТеХ. Может быть и Ворд и рукопись и даже ЧиРайтер (если кто помнит).

 Профиль  
                  
 
 
Сообщение20.06.2007, 17:07 
Заслуженный участник
Аватара пользователя


01/03/06
13626
Москва
OZH писал(а):
Brukvalub писал(а):
В связи с этим меня давно мучает вопрос: а как обстоят дела с авторскими правами в УРСС


На что это Вы намекаете?
Ни на что не намекаю. Просто подозреваю, что в этом вопросе у них не все безоблачно, но точно этого не знаю, вот и спросил.

 Профиль  
                  
 
 
Сообщение20.06.2007, 17:33 
Заслуженный участник
Аватара пользователя


17/10/05
3709
:evil:
FP писал(а):
ЧиРайтер

Не помню такого. Может быть, Вы говорите о КайРайтере (ChiWriter). Дык там Chi — от $\chi$, а не от chihuahua.

FP писал(а):
Это как раз и есть издержки невозможности научить авторов писать в ТеХе. Все таки "макроязык" и тратить несколоько месяцев на его качественное освоение у авторов времени нет. Многие и статьи свои набрать в ТеХе не могут, отдают на сторону. Это серьезная проблема. А когда файлы сливаются из разных источников, то начинается "лебединая песнь", можно стреляться (TeX, LaTeX, AMS c кучей разных пакетов).

Зачем? Достаточно сделать общий шаблон и сказать, что он — общий, все пишут статьи в нем. Плюс сделать введение на три странички. (Да, редакции придется попотеть! как же без этого.) Единообразие — гарантировано.

FP писал(а):
Сначала распознать текст, предварительно спрятав формулы в картинки (чтобы грязи меньше было), а потом руками вставить формулы.

Можно и так (пока распознавателя формул нет). Конечно, хорошо бы хотя бы мелкую оптимизацию: возможность выделить формулу в блоке текста. Не думаю, что и это не по силам современной науке и авторам FR. Но есть ли у FR мальчик (рынок)? Сколько продаж им это даст? Нисколько? Тогда зачем?

FP писал(а):
А неявнвя оплата абсолютно везде.

Вы специально смешиваете неявную оплату с различными источниками финансирования? Есть ведь принципиальная разница, кто платит. А вот при неявной оплате Вы платите, но эта плата не входит в декларируемую цену. Пример неявной оплаты — налог MS, когда Вы не можете купить комп без Виндузе. То есть, если Вы устраиваете скандал, Вам дадут с чистым диском. Но цена будет такая же. Не надо думать, что Виндузе — бесплатный. Просто деньги за него отчисляют с процессора, а не с продажи. И где-то полтинник на него отведен.(Такой вот незаконный способ грабежа населения. Но они и — не пираты, ни-ни! Просто злоупотребили своим монопольным положением на рынке. А пираты — это мы знаем.)

FP писал(а):
Но можно еще в гугле посмотреть

Отличная мысль! Как же мне в голову не пришла! (Пришла, однако. Но с данной Вами информацией просмотра двух-трех страниц результатов не хватило. Слишком уж слово «бесконечность» популярно.)

 Профиль  
                  
 
 
Сообщение20.06.2007, 17:47 


14/06/07
73
незваный гость писал(а):
Отличная мысль! Как же мне в голову не пришла! (Пришла, однако. Но с данной Вами информацией просмотра двух-трех страниц результатов не хватило. Слишком уж слово «бесконечность» популярно.)

Последний раз видел эту программу 1,5-2 года назад, вылетели три буквы из головы, позор мне. Хотя сразу перед абзацем, который вы указали уже имелась ссылка с правильным названием.
незваный гость писал(а):
Зачем? Достаточно сделать общий шаблон и сказать, что он — общий, все пишут статьи в нем. Плюс сделать введение на три странички. (Да, редакции придется попотеть! как же без этого.) Единообразие — гарантировано.

Часто бывает: Семеро одного ждут.
незваный гость писал(а):
Не помню такого. Может быть, Вы говорите о КайРайтере (ChiWriter). Дык там Chi — от , а не от chihuahua.

Общеупотребительное название в России в конце 80 - начале 90: ЧиРайтер.

 Профиль  
                  
 
 
Сообщение20.06.2007, 18:31 
Заслуженный участник
Аватара пользователя


17/10/05
3709
:evil:
FP писал(а):
Хотя сразу перед абзацем, который вы указали уже имелась ссылка с правильным названием.

Моя ирония была адресована Вашему совету воспользоваться Гуглом (совет звучал, — на мой слух — если утрировать и огрубить, как возьми/протри очки). Вашу ссылку я видел, но тогда воспользоваться ей не успел.

FP писал(а):
Часто бывает: Семеро одного ждут.

Американцы возвели это в ранг метода и называют CPA (Critical Path Analysis). :)

FP писал(а):
Общеупотребительное название

Да-с, с иронией плохо. Постараюсь поменьше иронизировать (или побольше отмечать :) ).

---
Часть сообщений отделена в тему Легко ли набирать в TeX'е?...
dm

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 273 ]  На страницу Пред.  1 ... 13, 14, 15, 16, 17, 18, 19  След.

Модератор: Модераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group