2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3, 4  След.
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 04:17 
Аватара пользователя


11/06/12
10390
стихия.вздох.мюсли
Хрен ли там делать, прошу прощения за резкие слова. Англовикипупия говорит нам, что ежегодный бюджет АрХива составляет нескольким больше восьмисот тысяч американских долларов.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 06:00 
Заслуженный участник
Аватара пользователя


31/01/14
11045
Hogtown
Aritaborian в сообщении #1401138 писал(а):
Хрен ли там делать, прошу прощения за резкие слова. Англовикипупия говорит нам, что ежегодный бюджет АрХива составляет нескольким больше восьмисот тысяч американских долларов.
Цитату и ссылку не подбросите? На самом деле сколько стоит содержание arXiv скорее всего никому неизвестно, т.к. инфраструктуру предоставляет Корнелл, инфраструктуру зеркал--другие университеты, ведущие сотрудники работают бесплатно (но это им идет в зачет в тех университетах).

(Оффтоп)

Я знаю, сколько на свои исследования я получаю от NSERC, но вот какая реально сумма тратится на них сверх никто не считал.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 11:10 


17/04/19
20
Red_Herring

Готово!
Я прикинул лишь порядок величины, при этом всегда ровняясь по верхней планке, или завышая.
Рассмотрим только физику и математику.
Допустим, что каждая статья занимает 100 стр - это 1мб.
По моим оценкам, на настоящий момент в месяц публикуется около 15000 статей ( могу расписать по каждому подразделу).
За год это 180000 статей.
За 27 лет это 4860000 статей ( при этом за 92й год, например, в разделе астрофизика опубликовано ВСЕГО 120 статей)
4860000мб/1024=4746гб
4746гб/1024=4,6тб
Около 5 тб.
Внешний hdd накопитель стоит такого объема стоит 9-10 тыс. руб.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 11:19 
Экс-модератор
Аватара пользователя


23/12/05
12047
Вообще-то, там на главной странице прямым текстом написано:
arXiv писал(а):
Open access to 1,555,564 e-prints in the fields of physics, mathematics, computer science, quantitative biology, quantitative finance, statistics, electrical engineering and systems science, and economics.


-- Mon Jun 24, 2019 10:32:58 --

Neustanovlennoe_lico в сообщении #1401183 писал(а):
Допустим, что каждая статья занимает 100 стр - это 1мб.

Какое-то необоснованное допущение. Точнее, даже два: статьи объемом в 100 страниц встречаются довольно редко, но, с другой стороны, статьи - это не только текст, поэтому и десятистраничная статья при обилии графического материала иногда может оказаться размером в десятки мегабайт.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 11:50 
Аватара пользователя


31/10/08
1244
Lib.ru менее 1 тб приток 10 Гб в год
Гинезис 180 Тб приток 5 тб в год
Sci-Hub 100 Тб приток 2 тб в год
arxiv.org 30-50 Тб приток 1,5 тб в год

Так как прирост двух последних ограничен. А прирост объемов дисков выше, то скора диски перегонят объёмы этих библиотек. Примерно лет через 10. Так что архивировать пока что дороговата и как следствие не имеет особого смысла. Хотя любители это сделать есть и делают.

photon
Оценка в 1 мб это нормальная оценка. Вот у себя померил у меня папка из 100 статей в среднем порядка 1,8 Мб.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 11:56 
Экс-модератор
Аватара пользователя


23/12/05
12047
Pavia в сообщении #1401202 писал(а):
Вот у себя померил у меня папка из 100 статей в среднем порядка 1,8 Мб.

А у меня папка из одной статьи на 80Мб. Это нерепрезентативные выборки.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 12:01 
Заслуженный участник


20/08/14
11136
Россия, Москва
Ну пяти миллионов статей там нет, они сами говорят что статей на сегодня чуть более полутора миллионов (во всех разделах). Да и с объёмом Вы прилично завысили оценку, я ткнулся в несколько свежих статей про бозон Хиггса, они до двух десятков страниц и все менее 100кБ (если я правильно понял где указан размер). Полный объём в статистике не нашёл, но думаю может хватить и терабайта. А, нет, нашёл такую фразу про bulk access с Amazon S3:
Цитата:
The complete set of PDFs is about 270GB, source files about 190GB, and we make about 40GB of additions/updates each month (2012-02).
Даже если объём утроился за 7 лет, всё равно терабайт.
Так что похоже выкачать его весь особой проблемы не представляет.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 12:09 


17/04/19
20
Pavia
Согласен с Photon
Нужно мерить по сайту, а не по своим папкам.
Я считаю, что заниматься бэкапом необходимо уже сейчас. Познакомьте с энтузиастами, пожалуйста.

Photon
Я это понимаю. В основной массе статьи от 5 до 10 страниц, при этом статьи по 100 или с избытком графики встречаются настолько редко, что мое допущение их перекрывает полностью.

Dmitriy40
Я специально сделал такое преувеличение, ведь даже с ним все скачать не представляет особой проблемы тоже. надо просто этим заняться.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 12:16 
Заслуженный участник


09/05/12
25179
Neustanovlennoe_lico в сообщении #1401183 писал(а):
Допустим, что каждая статья занимает 100 стр - это 1мб.
Средняя статья содержит меньшее число страниц и занимает больше места. Я сейчас проглядел несколько первых препринтов в интересующем лично меня разделе за сегодняшний день, и вот размеры в мегабайтах: 10.1, 2.5, 0.5, 9.4, 1.6, 5.7... Соответственно, оценка сильно занижена.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 12:35 


17/04/19
20
Pphantom
Хорошо, допустим вы правы.
Тогда при 180000 статьях за год и 4 860 000 статьях всего оценка объем в мб будет ( статья равна 10 мб):48 600 000
48 600 000/1024=47 461 гб
47 461/1024=46,3 тб
Это число - наибольший возможный теоретический объем.
Реальный объем может быть только меньше, т. к.
1.Статьи от 10 мб встречаются все-таки гораздо реже остальных.
2.Количество публикуемых в год статей отсчитывается от настоящего момента.
Например, астрофизика:
За 2018: около 16 тыс
за 2002: около 8 тыс
За 1994: около 1 тыс.
Еще раз, за ежегодное значение я принимал значение 2018 года, поэтому считаю результат первого расчета (5 тб) более близким к реальному.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 13:23 
Заслуженный участник


20/08/14
11136
Россия, Москва
Зачем заниматься произвольной аппроксимацией, если есть реальные данные? Не 5 миллионов, а полтора, не сотня ТБ, а примерно один имхо: вот есть родная картинка (отсюда) с количеством статей на 2012 год и на 2018, было 800 тысяч, стало 1.4 миллиона, если предположить что средний объём статей не сильно увеличился, то удвоение суммы 270ГБ+190ГБ как раз и даёт примерно 1ТБ. Ну пусть даже статьи стали в 5 раз весомее, всё равно это единицы ТБ.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 13:47 
Заслуженный участник
Аватара пользователя


31/01/14
11045
Hogtown
Neustanovlennoe_lico в сообщении #1401183 писал(а):
Внешний hdd накопитель стоит такого объема стоит 9-10 тыс. руб.
Вопрос был не вам, поскольку речь шла об англоязычной вики, то мне нужна ссылка на нее, а не спекулятивные расчеты (хотя бу потому, что накопители одной и той же емкости могут стоить совершенно по разному), и в любом случае это никакого отношения к бюджету не имеет.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 14:15 


17/04/19
20
Dmitriy40
Произвольная аппроксимация это и дала - единицы тб, менне вероятно до 50 тб.

Red_herring
Простите, не тому отправил.
Вот такие накопители я имел ввиду.
Вот например:
https://www.dns-shop.ru/product/a19e243 ... hp5000401/
Или вот:
https://www.dns-shop.ru/product/bbb763a ... dr5000203/
О таком накопителе я завел речь потому, что его хватит на весь домашний "Архив".

Aritaborian
Присоединяюсь к Red_herring, дайте ссылку.

Pphantom
Вот, сделал примерную оценку, смотрите выше.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 14:25 
Заслуженный участник


09/05/12
25179
Ее не совсем вы сделали, ну да ладно. Итого нужен примерно терабайт в год только на хранение. Поскольку мы пытаемся спасаться от катаклизмов и т.п., то нужно резервирование и хорошие накопители, а также стенд для их подключения. Итого желание платить за все это осталось?

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 14:31 


17/04/19
20
Pphantom
Да. Я изначально это и предполагал.
Что за стенды? Имелась ввиду док-станция для одновременного подключения нескольких накопителей?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 46 ]  На страницу Пред.  1, 2, 3, 4  След.

Модератор: Модераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group