2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу Пред.  1 ... 13, 14, 15, 16, 17, 18, 19  След.

Как вы к этому относитесь?
Хорошо 1%  1%  [ 1 ]
Плохо 94%  94%  [ 63 ]
Мне пофигу 4%  4%  [ 3 ]
Всего голосов : 67
 
 
Сообщение19.06.2007, 23:11 
Заслуженный участник
Аватара пользователя


17/10/05
3709
:evil:
У автора есть альтернатива: пойти в ресторан (издательство с полным обслуживанием), купить обед в кулинарии (что-то, скажем, верстку, сделать самому, и нанять корректора), или приготовить обед самому.

Я ведь не против выбора, я всего лишь не отрицаю его возможность. (И, сильно подозреваю, что профессионал отличит сделанную мной статью от профессионально подготовленной. А вот читатель — нет.) Пусть будут издательства для тех, кто хочет услуг издательства. Но они — уже сейчас понятно — не для всех.

FP писал(а):
Надо попробовать. А FR умеет распознавать формулы? Эта задача не решена и не будет решена в ближайшие 50 лет.

Это не страшно. У меня Понтрягин (Топологические группы), скажем, 38 года. Его и выложим (djvu). Он-то не защищен.

Самое главное: Вы недооцениваете количество труда, которое люди готовы затратить для того, чтобы сделать текст доступным другим. Я уже два года потихонечку делаю OCR «Всадника без головы». Книга 1868 г., шрифты и типография были хреновые, бумага не мелованная (и кислоты до хрена). Кроме того, мне было жаль книгу, и я сканировал ее очень бережно, не разламывая. Вот теперь и мучаюсь… Но (еще через пару лет) — доделаю и выложу в Project Gutenberg.

И напишем специальный OCR для распознавания формул. FR не будет, а Tesseract (например) — будет. Заодно и статью напишем: как мы победили распознавание формул.

Добавлено спустя 37 минут 58 секунд:

FP писал(а):
А он наймет издателя и платить не будет.

Будет! Зачем питать себя иллюзиями. Неявная оплата — это оплата. Нанимая издательство, мы соглашаемся, что все эти расходы идут из нашего кармана (соответственно, уменьшая гонорар).

 Профиль  
                  
 
 
Сообщение19.06.2007, 23:30 


14/06/07
73
незваный гость писал(а):
Я уже два года потихонечку делаю OCR «Всадника без головы». Книга 1868 г., шрифты и типография были хреновые, бумага не мелованная (и кислоты до хрена). Кроме того, мне было жаль книгу, и я сканировал ее очень бережно, не разламывая. Вот теперь и мучаюсь… Но (еще через пару лет) — доделаю и выложу в Project Gutenberg.

Вот и подготовка уже в годы выливается. А стоит ли? Конечно, хобби разное бывает. У кого марки, у кого бабочки. А у вас книга. Ваш выбор.
незваный гость писал(а):
И напишем специальный OCR для распознавания формул. FR не будет, а Tesseract (например) — будет. Заодно и статью напишем: как мы победили распознавание формул.

Не удастся. Хорошо знаю тему. Это сильно отличается от того, чтобы подложку с текстом в djvu встроить. Могу точно сказать - света в конце тоннеля не видать. Возможно решение локальных задач, например, распознавание текстов какого-то одного типа. А статью дай бог к пенсии (внуков). У японцев есть Infinity, который якобы распознает. Попробуйте :D .

 Профиль  
                  
 
 
Сообщение20.06.2007, 00:42 
Заслуженный участник
Аватара пользователя


17/10/05
3709
:evil:
FP писал(а):
У японцев есть Infinity, который якобы распознает. Попробуйте

Может, и попробую, если не только название, но и ссылочку дадите.

В целом я более оптимистично оцениваю развитие CS-технологий.

FP писал(а):
А стоит ли?

«Но у всех молодцов благородная цель». Я не думаю, что эта книга будет издана в ближайшее время. По крайней мере, я не знаю об изданиях после 1905 г.

 Профиль  
                  
 
 
Сообщение20.06.2007, 08:29 


14/06/07
73
незваный гость писал(а):
Может, и попробую, если не только название, но и ссылочку дадите.

http://forum.ru-board.com/topic.cgi?forum=5&topic=12860
На этой странице есть название и некоторые ссылки. Но можно еще в гугле посмотреть. Я приведу только один пример сложности задачи. Возьмем наклонную букву а и греческую альфа из ТеХа. Гарантированно их различить нельзя, они слишком близки. В обычном тексте поможет словарь (и, например, биграммы), а что здесь? Поэтому количество ошибок сильно будет зависеть от качества сканированной страницы. А так как весь разговор относится к старым книгам, то и смысл в таком распознавании пропадает. Решение такой задачи одиночкам не под силу. Рынка програмных продуктов, которые бы использовали распознавание формул, не существует и существовать не будет. Значит и денег на разработку не появится, а это затянет разработку на десятилетия. Пример ТеХа показывает, что и через тридцать лет ничего нового не появилось, упростившего бы набор мат. текстов, хотя это возможно.

 Профиль  
                  
 
 
Сообщение20.06.2007, 10:49 


04/02/06
122
СПИИРАН
Не имея пока возможности всё прочитать, высказывая благодарность всем участникам дискуссии за то, что это именно дискуссия, (что сегодня большая редкость), хочу сделать только одно замечание.

Я думаю, что, порою, проще набрать заново старую книгу, чем пытаться как-то её распозновывать.

Издательство УРСС, как известно (надеюсь), переиздаёт старые книги и во многоих случаях оно не заморачиватся с набором, а просто воспроизводит оригинал. Ну, это как если бы распечатать djvu на ризографе. Это особенно ценно в случае, когда существует полный и точный список канонических опечаток. Зачем же создавать новые при наборе? Тем более, когда при спешке по недосмотру появляются дикие опечатки, полностью меняющие смысл формул и возникающие при ошибочном указании фигурных скобок, обозначающих ТеХовские группы. (Хотя попадаются и набранные книги.)

P.S. У нас в институте принят дикий способ выпуска Трудов института: Вы пишите статью в Word'е, переводите в формат pdf, распечатываете с результата и отдаёте (как бумажный, так и электронный вариант) местным организаторам, те могут несколько раз отказать в приёме статьи из-за полиграфических требований... В конце концов все pdf-файлы собираются во едино, масштабируются до формата A5 и задействуется ризограф. Именно поэтому необходимо использовать Arial12 (для основного текста), чтобы при масштабировании не исчезли тонкие элементы... Можно было бы и в ТеХе, однако для этого необходимо выполнить два условия: 1) создать в Windows аналог определённого шрифта, который есть в ТеХе и удовлетворяет полиграфическим требованиям; 2) сподобить авторов написать что-то в ТеХе (а это, оказывается, большая трудность: не воспринимают). А принимают в pdf потому, что иначе каждый doc-файл будет приходить со своими настройками и просмотр одного и того же файла на разных машинах приводит к различным результатам. Вместо автоматизации, шаблонов и программ, морока ложится на плечи самих авторов...

 Профиль  
                  
 
 
Сообщение20.06.2007, 11:49 


14/06/07
73
OZH писал(а):
Я думаю, что, порою, проще набрать заново старую книгу, чем пытаться как-то её распозновывать.

Спасибо, OZH, за теплые слова. Проще сделать следующим образом. Сначала распознать текст, предварительно спрятав формулы в картинки (чтобы грязи меньше было), а потом руками вставить формулы.
OZH писал(а):
Издательство УРСС, как известно (надеюсь), переиздаёт старые книги и во многоих случаях оно не заморачиватся с набором, а просто воспроизводит оригинал.

Потому книги и дешево продаются по цене мелованной бумаги, в них сэкономлено на всем, чем можно, что опровергает тезис PAVа о нежелании издателей экономить на расходах. Экономят, и идеи им на этот счет даже снятся.
OZH писал(а):
У нас в институте принят дикий способ выпуска Трудов института: Вы пишите статью в Word'е, переводите в формат pdf, распечатываете с результата и отдаёте (как бумажный, так и электронный вариант) местным организаторам, те могут несколько раз отказать в приёме статьи из-за полиграфических требований...

Очень непрофессионально. Это как раз и есть издержки невозможности научить авторов писать в ТеХе. Все таки "макроязык" и тратить несколоько месяцев на его качественное освоение у авторов времени нет. Многие и статьи свои набрать в ТеХе не могут, отдают на сторону. Это серьезная проблема. А когда файлы сливаются из разных источников, то начинается "лебединая песнь", можно стреляться (TeX, LaTeX, AMS c кучей разных пакетов).

 Профиль  
                  
 
 
Сообщение20.06.2007, 12:19 
Экс-админ
Аватара пользователя


23/05/05
2106
Kyiv, Ukraine
незваный гость писал(а):
:evil:
FP писал(а):
У японцев есть Infinity, который якобы распознает. Попробуйте

Может, и попробую, если не только название, но и ссылочку дадите.

http://www.inftyproject.org/en/index.html
http://forum.ru-board.com/topic.cgi?forum=5&topic=12982

 Профиль  
                  
 
 
Сообщение20.06.2007, 13:59 


14/06/07
73
незваный гость писал(а):
Будет! Зачем питать себя иллюзиями. Неявная оплата — это оплата. Нанимая издательство, мы соглашаемся, что все эти расходы идут из нашего кармана (соответственно, уменьшая гонорар).

А неявнвя оплата абсолютно везде. Студент учится на бесплатном отделении, а платят налогоплательщики. Покупая компьютерный журнал за низкую цену, платим также мы, попадаясь на рекламную удочку. В телевизоре - реклама. При выкладывании автором в сеть своего произведения (бесплатно) он вообще не получит гонорара. А если возпользуется сервисом 6 библиотек, получит всего треть. Этот сервих придумал новые идеи ведения бизнеса. Будучи формально розничным магазином, покупает товар за треть цены. Где вы видели такое? ITune отчисляет не менее половины. А торговать они будут в конечном счете всем подряд: и новыми книгами, и старыми. Общественность сканировала, распознавала, вычитывала, а теперь ее труд продают. Так всегда и бывает.

 Профиль  
                  
 
 
Сообщение20.06.2007, 14:30 
Заслуженный участник
Аватара пользователя


01/03/06
13626
Москва
OZH писал(а):
Издательство УРСС, как известно (надеюсь), переиздаёт старые книги и во многоих случаях оно не заморачиватся с набором, а просто воспроизводит оригинал. Ну, это как если бы распечатать djvu на ризографе.
В связи с этим меня давно мучает вопрос: а как обстоят дела с авторскими правами в УРСС?

 Профиль  
                  
 
 
Сообщение20.06.2007, 16:11 


04/02/06
122
СПИИРАН
FP писал(а):
Потому книги и дешево продаются по цене мелованной бумаги, в них сэкономлено на всем, чем можно, что опровергает тезис PAVа о нежелании издателей экономить на расходах. Экономят, и идеи им на этот счет даже снятся.


Скажите спасибо, что переиздают и, при том, в таком виде. Я уже говорил Вам о канонических опечатках.

FP писал(а):
Все таки "макроязык" и тратить несколоько месяцев на его качественное освоение у авторов времени нет. Многие и статьи свои набрать в ТеХе не могут, отдают на сторону. Это серьезная проблема.


Ну-да. Когда они видят:

Код:
\documentclass{article}


то приходят в замешательство. А когда доходят до

Код:
\begin{document}


то с ними случается уже помешательство.

FP писал(а):
А когда файлы сливаются из разных источников, то начинается "лебединая песнь", можно стреляться (TeX, LaTeX, AMS c кучей разных пакетов).


есть такая комманда

Код:
\include ...


Какие проблемы? Только надо преваительно всем авторам разослать стилевой файл и некоторое соглашения о применяемых коммандах.

Brukvalub писал(а):
В связи с этим меня давно мучает вопрос: а как обстоят дела с авторскими правами в УРСС


На что это Вы намекаете?

 Профиль  
                  
 
 
Сообщение20.06.2007, 16:52 


14/06/07
73
OZH писал(а):
Какие проблемы? Только надо преваительно всем авторам разослать стилевой файл и некоторое соглашения о применяемых коммандах.

Время - деньги. Лучше получить в чем угодно, чем ждать, чтобы каждый выучил ТеХ. Может быть и Ворд и рукопись и даже ЧиРайтер (если кто помнит).

 Профиль  
                  
 
 
Сообщение20.06.2007, 17:07 
Заслуженный участник
Аватара пользователя


01/03/06
13626
Москва
OZH писал(а):
Brukvalub писал(а):
В связи с этим меня давно мучает вопрос: а как обстоят дела с авторскими правами в УРСС


На что это Вы намекаете?
Ни на что не намекаю. Просто подозреваю, что в этом вопросе у них не все безоблачно, но точно этого не знаю, вот и спросил.

 Профиль  
                  
 
 
Сообщение20.06.2007, 17:33 
Заслуженный участник
Аватара пользователя


17/10/05
3709
:evil:
FP писал(а):
ЧиРайтер

Не помню такого. Может быть, Вы говорите о КайРайтере (ChiWriter). Дык там Chi — от $\chi$, а не от chihuahua.

FP писал(а):
Это как раз и есть издержки невозможности научить авторов писать в ТеХе. Все таки "макроязык" и тратить несколоько месяцев на его качественное освоение у авторов времени нет. Многие и статьи свои набрать в ТеХе не могут, отдают на сторону. Это серьезная проблема. А когда файлы сливаются из разных источников, то начинается "лебединая песнь", можно стреляться (TeX, LaTeX, AMS c кучей разных пакетов).

Зачем? Достаточно сделать общий шаблон и сказать, что он — общий, все пишут статьи в нем. Плюс сделать введение на три странички. (Да, редакции придется попотеть! как же без этого.) Единообразие — гарантировано.

FP писал(а):
Сначала распознать текст, предварительно спрятав формулы в картинки (чтобы грязи меньше было), а потом руками вставить формулы.

Можно и так (пока распознавателя формул нет). Конечно, хорошо бы хотя бы мелкую оптимизацию: возможность выделить формулу в блоке текста. Не думаю, что и это не по силам современной науке и авторам FR. Но есть ли у FR мальчик (рынок)? Сколько продаж им это даст? Нисколько? Тогда зачем?

FP писал(а):
А неявнвя оплата абсолютно везде.

Вы специально смешиваете неявную оплату с различными источниками финансирования? Есть ведь принципиальная разница, кто платит. А вот при неявной оплате Вы платите, но эта плата не входит в декларируемую цену. Пример неявной оплаты — налог MS, когда Вы не можете купить комп без Виндузе. То есть, если Вы устраиваете скандал, Вам дадут с чистым диском. Но цена будет такая же. Не надо думать, что Виндузе — бесплатный. Просто деньги за него отчисляют с процессора, а не с продажи. И где-то полтинник на него отведен.(Такой вот незаконный способ грабежа населения. Но они и — не пираты, ни-ни! Просто злоупотребили своим монопольным положением на рынке. А пираты — это мы знаем.)

FP писал(а):
Но можно еще в гугле посмотреть

Отличная мысль! Как же мне в голову не пришла! (Пришла, однако. Но с данной Вами информацией просмотра двух-трех страниц результатов не хватило. Слишком уж слово «бесконечность» популярно.)

 Профиль  
                  
 
 
Сообщение20.06.2007, 17:47 


14/06/07
73
незваный гость писал(а):
Отличная мысль! Как же мне в голову не пришла! (Пришла, однако. Но с данной Вами информацией просмотра двух-трех страниц результатов не хватило. Слишком уж слово «бесконечность» популярно.)

Последний раз видел эту программу 1,5-2 года назад, вылетели три буквы из головы, позор мне. Хотя сразу перед абзацем, который вы указали уже имелась ссылка с правильным названием.
незваный гость писал(а):
Зачем? Достаточно сделать общий шаблон и сказать, что он — общий, все пишут статьи в нем. Плюс сделать введение на три странички. (Да, редакции придется попотеть! как же без этого.) Единообразие — гарантировано.

Часто бывает: Семеро одного ждут.
незваный гость писал(а):
Не помню такого. Может быть, Вы говорите о КайРайтере (ChiWriter). Дык там Chi — от , а не от chihuahua.

Общеупотребительное название в России в конце 80 - начале 90: ЧиРайтер.

 Профиль  
                  
 
 
Сообщение20.06.2007, 18:31 
Заслуженный участник
Аватара пользователя


17/10/05
3709
:evil:
FP писал(а):
Хотя сразу перед абзацем, который вы указали уже имелась ссылка с правильным названием.

Моя ирония была адресована Вашему совету воспользоваться Гуглом (совет звучал, — на мой слух — если утрировать и огрубить, как возьми/протри очки). Вашу ссылку я видел, но тогда воспользоваться ей не успел.

FP писал(а):
Часто бывает: Семеро одного ждут.

Американцы возвели это в ранг метода и называют CPA (Critical Path Analysis). :)

FP писал(а):
Общеупотребительное название

Да-с, с иронией плохо. Постараюсь поменьше иронизировать (или побольше отмечать :) ).

---
Часть сообщений отделена в тему Легко ли набирать в TeX'е?...
dm

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 273 ]  На страницу Пред.  1 ... 13, 14, 15, 16, 17, 18, 19  След.

Модератор: Модераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: tolstopuz


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group