Бесплатных электронных библиотек не будет.

незваный гость · 19.06.2007, 23:11

У автора есть альтернатива: пойти в ресторан (издательство с полным обслуживанием), купить обед в кулинарии (что-то, скажем, верстку, сделать самому, и нанять корректора), или приготовить обед самому.

Я ведь не против выбора, я всего лишь не отрицаю его возможность. (И, сильно подозреваю, что профессионал отличит сделанную мной статью от профессионально подготовленной. А вот читатель — нет.) Пусть будут издательства для тех, кто хочет услуг издательства. Но они — уже сейчас понятно — не для всех.

FP писал(а):

Надо попробовать. А FR умеет распознавать формулы? Эта задача не решена и не будет решена в ближайшие 50 лет.

Это не страшно. У меня Понтрягин (Топологические группы), скажем, 38 года. Его и выложим (djvu). Он-то не защищен.

Самое главное: Вы недооцениваете количество труда, которое люди готовы затратить для того, чтобы сделать текст доступным другим. Я уже два года потихонечку делаю OCR «Всадника без головы». Книга 1868 г., шрифты и типография были хреновые, бумага не мелованная (и кислоты до хрена). Кроме того, мне было жаль книгу, и я сканировал ее очень бережно, не разламывая. Вот теперь и мучаюсь… Но (еще через пару лет) — доделаю и выложу в Project Gutenberg.

И напишем специальный OCR для распознавания формул. FR не будет, а Tesseract (например) — будет. Заодно и статью напишем: как мы победили распознавание формул.

Добавлено спустя 37 минут 58 секунд:

FP писал(а):

А он наймет издателя и платить не будет.

Будет! Зачем питать себя иллюзиями. Неявная оплата — это оплата. Нанимая издательство, мы соглашаемся, что все эти расходы идут из нашего кармана (соответственно, уменьшая гонорар).

FP · 19.06.2007, 23:30

незваный гость писал(а):

Я уже два года потихонечку делаю OCR «Всадника без головы». Книга 1868 г., шрифты и типография были хреновые, бумага не мелованная (и кислоты до хрена). Кроме того, мне было жаль книгу, и я сканировал ее очень бережно, не разламывая. Вот теперь и мучаюсь… Но (еще через пару лет) — доделаю и выложу в Project Gutenberg.

Вот и подготовка уже в годы выливается. А стоит ли? Конечно, хобби разное бывает. У кого марки, у кого бабочки. А у вас книга. Ваш выбор.

незваный гость писал(а):

И напишем специальный OCR для распознавания формул. FR не будет, а Tesseract (например) — будет. Заодно и статью напишем: как мы победили распознавание формул.

Не удастся. Хорошо знаю тему. Это сильно отличается от того, чтобы подложку с текстом в djvu встроить. Могу точно сказать - света в конце тоннеля не видать. Возможно решение локальных задач, например, распознавание текстов какого-то одного типа. А статью дай бог к пенсии (внуков). У японцев есть Infinity, который якобы распознает. Попробуйте

.

незваный гость · 20.06.2007, 00:42

FP писал(а):

У японцев есть Infinity, который якобы распознает. Попробуйте

Может, и попробую, если не только название, но и ссылочку дадите.

В целом я более оптимистично оцениваю развитие CS-технологий.

FP писал(а):

А стоит ли?

«Но у всех молодцов благородная цель». Я не думаю, что эта книга будет издана в ближайшее время. По крайней мере, я не знаю об изданиях после 1905 г.

FP · 20.06.2007, 08:29

незваный гость писал(а):

Может, и попробую, если не только название, но и ссылочку дадите.

http://forum.ru-board.com/topic.cgi?forum=5&topic=12860
На этой странице есть название и некоторые ссылки. Но можно еще в гугле посмотреть. Я приведу только один пример сложности задачи. Возьмем наклонную букву а и греческую альфа из ТеХа. Гарантированно их различить нельзя, они слишком близки. В обычном тексте поможет словарь (и, например, биграммы), а что здесь? Поэтому количество ошибок сильно будет зависеть от качества сканированной страницы. А так как весь разговор относится к старым книгам, то и смысл в таком распознавании пропадает. Решение такой задачи одиночкам не под силу. Рынка програмных продуктов, которые бы использовали распознавание формул, не существует и существовать не будет. Значит и денег на разработку не появится, а это затянет разработку на десятилетия. Пример ТеХа показывает, что и через тридцать лет ничего нового не появилось, упростившего бы набор мат. текстов, хотя это возможно.

OZH · 20.06.2007, 10:49

Не имея пока возможности всё прочитать, высказывая благодарность всем участникам дискуссии за то, что это именно дискуссия, (что сегодня большая редкость), хочу сделать только одно замечание.

Я думаю, что, порою, проще набрать заново старую книгу, чем пытаться как-то её распозновывать.

Издательство УРСС, как известно (надеюсь), переиздаёт старые книги и во многоих случаях оно не заморачиватся с набором, а просто воспроизводит оригинал. Ну, это как если бы распечатать djvu на ризографе. Это особенно ценно в случае, когда существует полный и точный список канонических опечаток. Зачем же создавать новые при наборе? Тем более, когда при спешке по недосмотру появляются дикие опечатки, полностью меняющие смысл формул и возникающие при ошибочном указании фигурных скобок, обозначающих ТеХовские группы. (Хотя попадаются и набранные книги.)

P.S. У нас в институте принят дикий способ выпуска Трудов института: Вы пишите статью в Word'е, переводите в формат pdf, распечатываете с результата и отдаёте (как бумажный, так и электронный вариант) местным организаторам, те могут несколько раз отказать в приёме статьи из-за полиграфических требований... В конце концов все pdf-файлы собираются во едино, масштабируются до формата A5 и задействуется ризограф. Именно поэтому необходимо использовать Arial12 (для основного текста), чтобы при масштабировании не исчезли тонкие элементы... Можно было бы и в ТеХе, однако для этого необходимо выполнить два условия: 1) создать в Windows аналог определённого шрифта, который есть в ТеХе и удовлетворяет полиграфическим требованиям; 2) сподобить авторов написать что-то в ТеХе (а это, оказывается, большая трудность: не воспринимают). А принимают в pdf потому, что иначе каждый doc-файл будет приходить со своими настройками и просмотр одного и того же файла на разных машинах приводит к различным результатам. Вместо автоматизации, шаблонов и программ, морока ложится на плечи самих авторов...

FP · 20.06.2007, 11:49

OZH писал(а):

Я думаю, что, порою, проще набрать заново старую книгу, чем пытаться как-то её распозновывать.

Спасибо, OZH, за теплые слова. Проще сделать следующим образом. Сначала распознать текст, предварительно спрятав формулы в картинки (чтобы грязи меньше было), а потом руками вставить формулы.

OZH писал(а):

Издательство УРСС, как известно (надеюсь), переиздаёт старые книги и во многоих случаях оно не заморачиватся с набором, а просто воспроизводит оригинал.

Потому книги и дешево продаются по цене мелованной бумаги, в них сэкономлено на всем, чем можно, что опровергает тезис PAVа о нежелании издателей экономить на расходах. Экономят, и идеи им на этот счет даже снятся.

OZH писал(а):

У нас в институте принят дикий способ выпуска Трудов института: Вы пишите статью в Word'е, переводите в формат pdf, распечатываете с результата и отдаёте (как бумажный, так и электронный вариант) местным организаторам, те могут несколько раз отказать в приёме статьи из-за полиграфических требований...

Очень непрофессионально. Это как раз и есть издержки невозможности научить авторов писать в ТеХе. Все таки "макроязык" и тратить несколоько месяцев на его качественное освоение у авторов времени нет. Многие и статьи свои набрать в ТеХе не могут, отдают на сторону. Это серьезная проблема. А когда файлы сливаются из разных источников, то начинается "лебединая песнь", можно стреляться (TeX, LaTeX, AMS c кучей разных пакетов).

dm · 20.06.2007, 12:19

незваный гость писал(а):

:evil:

FP писал(а):

У японцев есть Infinity, который якобы распознает. Попробуйте

Может, и попробую, если не только название, но и ссылочку дадите.

http://www.inftyproject.org/en/index.html
http://forum.ru-board.com/topic.cgi?forum=5&topic=12982

FP · 20.06.2007, 13:59

незваный гость писал(а):

Будет! Зачем питать себя иллюзиями. Неявная оплата — это оплата. Нанимая издательство, мы соглашаемся, что все эти расходы идут из нашего кармана (соответственно, уменьшая гонорар).

А неявнвя оплата абсолютно везде. Студент учится на бесплатном отделении, а платят налогоплательщики. Покупая компьютерный журнал за низкую цену, платим также мы, попадаясь на рекламную удочку. В телевизоре - реклама. При выкладывании автором в сеть своего произведения (бесплатно) он вообще не получит гонорара. А если возпользуется сервисом 6 библиотек, получит всего треть. Этот сервих придумал новые идеи ведения бизнеса. Будучи формально розничным магазином, покупает товар за треть цены. Где вы видели такое? ITune отчисляет не менее половины. А торговать они будут в конечном счете всем подряд: и новыми книгами, и старыми. Общественность сканировала, распознавала, вычитывала, а теперь ее труд продают. Так всегда и бывает.

Brukvalub · 20.06.2007, 14:30

OZH писал(а):

Издательство УРСС, как известно (надеюсь), переиздаёт старые книги и во многоих случаях оно не заморачиватся с набором, а просто воспроизводит оригинал. Ну, это как если бы распечатать djvu на ризографе.

В связи с этим меня давно мучает вопрос: а как обстоят дела с авторскими правами в УРСС?

OZH · 20.06.2007, 16:11

FP писал(а):

Потому книги и дешево продаются по цене мелованной бумаги, в них сэкономлено на всем, чем можно, что опровергает тезис PAVа о нежелании издателей экономить на расходах. Экономят, и идеи им на этот счет даже снятся.

Скажите спасибо, что переиздают и, при том, в таком виде. Я уже говорил Вам о канонических опечатках.

FP писал(а):

Все таки "макроязык" и тратить несколоько месяцев на его качественное освоение у авторов времени нет. Многие и статьи свои набрать в ТеХе не могут, отдают на сторону. Это серьезная проблема.

Ну-да. Когда они видят:

Код:

\documentclass{article}

то приходят в замешательство. А когда доходят до

Код:

\begin{document}

то с ними случается уже помешательство.

FP писал(а):

А когда файлы сливаются из разных источников, то начинается "лебединая песнь", можно стреляться (TeX, LaTeX, AMS c кучей разных пакетов).

есть такая комманда

Код:

\include ...

Какие проблемы? Только надо преваительно всем авторам разослать стилевой файл и некоторое соглашения о применяемых коммандах.

Brukvalub писал(а):

В связи с этим меня давно мучает вопрос: а как обстоят дела с авторскими правами в УРСС

На что это Вы намекаете?

FP · 20.06.2007, 16:52

OZH писал(а):

Какие проблемы? Только надо преваительно всем авторам разослать стилевой файл и некоторое соглашения о применяемых коммандах.

Время - деньги. Лучше получить в чем угодно, чем ждать, чтобы каждый выучил ТеХ. Может быть и Ворд и рукопись и даже ЧиРайтер (если кто помнит).

Brukvalub · 20.06.2007, 17:07

OZH писал(а):

Brukvalub писал(а):
В связи с этим меня давно мучает вопрос: а как обстоят дела с авторскими правами в УРСС

На что это Вы намекаете?

Ни на что не намекаю. Просто подозреваю, что в этом вопросе у них не все безоблачно, но точно этого не знаю, вот и спросил.

незваный гость · 20.06.2007, 17:33

FP писал(а):

ЧиРайтер

Не помню такого. Может быть, Вы говорите о КайРайтере (ChiWriter). Дык там Chi — от

\chi

, а не от chihuahua.

FP писал(а):

Это как раз и есть издержки невозможности научить авторов писать в ТеХе. Все таки "макроязык" и тратить несколоько месяцев на его качественное освоение у авторов времени нет. Многие и статьи свои набрать в ТеХе не могут, отдают на сторону. Это серьезная проблема. А когда файлы сливаются из разных источников, то начинается "лебединая песнь", можно стреляться (TeX, LaTeX, AMS c кучей разных пакетов).

Зачем? Достаточно сделать общий шаблон и сказать, что он — общий, все пишут статьи в нем. Плюс сделать введение на три странички. (Да, редакции придется попотеть! как же без этого.) Единообразие — гарантировано.

FP писал(а):

Сначала распознать текст, предварительно спрятав формулы в картинки (чтобы грязи меньше было), а потом руками вставить формулы.

Можно и так (пока распознавателя формул нет). Конечно, хорошо бы хотя бы мелкую оптимизацию: возможность выделить формулу в блоке текста. Не думаю, что и это не по силам современной науке и авторам FR. Но есть ли у FR мальчик (рынок)? Сколько продаж им это даст? Нисколько? Тогда зачем?

FP писал(а):

А неявнвя оплата абсолютно везде.

Вы специально смешиваете неявную оплату с различными источниками финансирования? Есть ведь принципиальная разница, кто платит. А вот при неявной оплате Вы платите, но эта плата не входит в декларируемую цену. Пример неявной оплаты — налог MS, когда Вы не можете купить комп без Виндузе. То есть, если Вы устраиваете скандал, Вам дадут с чистым диском. Но цена будет такая же. Не надо думать, что Виндузе — бесплатный. Просто деньги за него отчисляют с процессора, а не с продажи. И где-то полтинник на него отведен.(Такой вот незаконный способ грабежа населения. Но они и — не пираты, ни-ни! Просто злоупотребили своим монопольным положением на рынке. А пираты — это мы знаем.)

FP писал(а):

Но можно еще в гугле посмотреть

Отличная мысль! Как же мне в голову не пришла! (Пришла, однако. Но с данной Вами информацией просмотра двух-трех страниц результатов не хватило. Слишком уж слово «бесконечность» популярно.)

FP · 20.06.2007, 17:47

незваный гость писал(а):

Отличная мысль! Как же мне в голову не пришла! (Пришла, однако. Но с данной Вами информацией просмотра двух-трех страниц результатов не хватило. Слишком уж слово «бесконечность» популярно.)

Последний раз видел эту программу 1,5-2 года назад, вылетели три буквы из головы, позор мне. Хотя сразу перед абзацем, который вы указали уже имелась ссылка с правильным названием.

незваный гость писал(а):

Зачем? Достаточно сделать общий шаблон и сказать, что он — общий, все пишут статьи в нем. Плюс сделать введение на три странички. (Да, редакции придется попотеть! как же без этого.) Единообразие — гарантировано.

Часто бывает: Семеро одного ждут.

незваный гость писал(а):

Не помню такого. Может быть, Вы говорите о КайРайтере (ChiWriter). Дык там Chi — от , а не от chihuahua.

Общеупотребительное название в России в конце 80 - начале 90: ЧиРайтер.

незваный гость · 20.06.2007, 18:31

FP писал(а):

Хотя сразу перед абзацем, который вы указали уже имелась ссылка с правильным названием.

Моя ирония была адресована Вашему совету воспользоваться Гуглом (совет звучал, — на мой слух — если утрировать и огрубить, как возьми/протри очки). Вашу ссылку я видел, но тогда воспользоваться ей не успел.

FP писал(а):

Часто бывает: Семеро одного ждут.

Американцы возвели это в ранг метода и называют CPA (Critical Path Analysis).

FP писал(а):

Общеупотребительное название

Да-с, с иронией плохо. Постараюсь поменьше иронизировать (или побольше отмечать

).

---
Часть сообщений отделена в тему Легко ли набирать в TeX'е?...
dm

Научный форум dxdy

Бесплатных электронных библиотек не будет.