2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3, 4  След.
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 04:17 
Аватара пользователя


11/06/12
10390
стихия.вздох.мюсли
Хрен ли там делать, прошу прощения за резкие слова. Англовикипупия говорит нам, что ежегодный бюджет АрХива составляет нескольким больше восьмисот тысяч американских долларов.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 06:00 
Заслуженный участник
Аватара пользователя


31/01/14
11305
Hogtown
Aritaborian в сообщении #1401138 писал(а):
Хрен ли там делать, прошу прощения за резкие слова. Англовикипупия говорит нам, что ежегодный бюджет АрХива составляет нескольким больше восьмисот тысяч американских долларов.
Цитату и ссылку не подбросите? На самом деле сколько стоит содержание arXiv скорее всего никому неизвестно, т.к. инфраструктуру предоставляет Корнелл, инфраструктуру зеркал--другие университеты, ведущие сотрудники работают бесплатно (но это им идет в зачет в тех университетах).

(Оффтоп)

Я знаю, сколько на свои исследования я получаю от NSERC, но вот какая реально сумма тратится на них сверх никто не считал.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 11:10 


17/04/19
20
Red_Herring

Готово!
Я прикинул лишь порядок величины, при этом всегда ровняясь по верхней планке, или завышая.
Рассмотрим только физику и математику.
Допустим, что каждая статья занимает 100 стр - это 1мб.
По моим оценкам, на настоящий момент в месяц публикуется около 15000 статей ( могу расписать по каждому подразделу).
За год это 180000 статей.
За 27 лет это 4860000 статей ( при этом за 92й год, например, в разделе астрофизика опубликовано ВСЕГО 120 статей)
4860000мб/1024=4746гб
4746гб/1024=4,6тб
Около 5 тб.
Внешний hdd накопитель стоит такого объема стоит 9-10 тыс. руб.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 11:19 
Экс-модератор
Аватара пользователя


23/12/05
12063
Вообще-то, там на главной странице прямым текстом написано:
arXiv писал(а):
Open access to 1,555,564 e-prints in the fields of physics, mathematics, computer science, quantitative biology, quantitative finance, statistics, electrical engineering and systems science, and economics.


-- Mon Jun 24, 2019 10:32:58 --

Neustanovlennoe_lico в сообщении #1401183 писал(а):
Допустим, что каждая статья занимает 100 стр - это 1мб.

Какое-то необоснованное допущение. Точнее, даже два: статьи объемом в 100 страниц встречаются довольно редко, но, с другой стороны, статьи - это не только текст, поэтому и десятистраничная статья при обилии графического материала иногда может оказаться размером в десятки мегабайт.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 11:50 
Аватара пользователя


31/10/08
1244
Lib.ru менее 1 тб приток 10 Гб в год
Гинезис 180 Тб приток 5 тб в год
Sci-Hub 100 Тб приток 2 тб в год
arxiv.org 30-50 Тб приток 1,5 тб в год

Так как прирост двух последних ограничен. А прирост объемов дисков выше, то скора диски перегонят объёмы этих библиотек. Примерно лет через 10. Так что архивировать пока что дороговата и как следствие не имеет особого смысла. Хотя любители это сделать есть и делают.

photon
Оценка в 1 мб это нормальная оценка. Вот у себя померил у меня папка из 100 статей в среднем порядка 1,8 Мб.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 11:56 
Экс-модератор
Аватара пользователя


23/12/05
12063
Pavia в сообщении #1401202 писал(а):
Вот у себя померил у меня папка из 100 статей в среднем порядка 1,8 Мб.

А у меня папка из одной статьи на 80Мб. Это нерепрезентативные выборки.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 12:01 
Заслуженный участник


20/08/14
11766
Россия, Москва
Ну пяти миллионов статей там нет, они сами говорят что статей на сегодня чуть более полутора миллионов (во всех разделах). Да и с объёмом Вы прилично завысили оценку, я ткнулся в несколько свежих статей про бозон Хиггса, они до двух десятков страниц и все менее 100кБ (если я правильно понял где указан размер). Полный объём в статистике не нашёл, но думаю может хватить и терабайта. А, нет, нашёл такую фразу про bulk access с Amazon S3:
Цитата:
The complete set of PDFs is about 270GB, source files about 190GB, and we make about 40GB of additions/updates each month (2012-02).
Даже если объём утроился за 7 лет, всё равно терабайт.
Так что похоже выкачать его весь особой проблемы не представляет.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 12:09 


17/04/19
20
Pavia
Согласен с Photon
Нужно мерить по сайту, а не по своим папкам.
Я считаю, что заниматься бэкапом необходимо уже сейчас. Познакомьте с энтузиастами, пожалуйста.

Photon
Я это понимаю. В основной массе статьи от 5 до 10 страниц, при этом статьи по 100 или с избытком графики встречаются настолько редко, что мое допущение их перекрывает полностью.

Dmitriy40
Я специально сделал такое преувеличение, ведь даже с ним все скачать не представляет особой проблемы тоже. надо просто этим заняться.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 12:16 
Заслуженный участник


09/05/12
25179
Neustanovlennoe_lico в сообщении #1401183 писал(а):
Допустим, что каждая статья занимает 100 стр - это 1мб.
Средняя статья содержит меньшее число страниц и занимает больше места. Я сейчас проглядел несколько первых препринтов в интересующем лично меня разделе за сегодняшний день, и вот размеры в мегабайтах: 10.1, 2.5, 0.5, 9.4, 1.6, 5.7... Соответственно, оценка сильно занижена.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 12:35 


17/04/19
20
Pphantom
Хорошо, допустим вы правы.
Тогда при 180000 статьях за год и 4 860 000 статьях всего оценка объем в мб будет ( статья равна 10 мб):48 600 000
48 600 000/1024=47 461 гб
47 461/1024=46,3 тб
Это число - наибольший возможный теоретический объем.
Реальный объем может быть только меньше, т. к.
1.Статьи от 10 мб встречаются все-таки гораздо реже остальных.
2.Количество публикуемых в год статей отсчитывается от настоящего момента.
Например, астрофизика:
За 2018: около 16 тыс
за 2002: около 8 тыс
За 1994: около 1 тыс.
Еще раз, за ежегодное значение я принимал значение 2018 года, поэтому считаю результат первого расчета (5 тб) более близким к реальному.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 13:23 
Заслуженный участник


20/08/14
11766
Россия, Москва
Зачем заниматься произвольной аппроксимацией, если есть реальные данные? Не 5 миллионов, а полтора, не сотня ТБ, а примерно один имхо: вот есть родная картинка (отсюда) с количеством статей на 2012 год и на 2018, было 800 тысяч, стало 1.4 миллиона, если предположить что средний объём статей не сильно увеличился, то удвоение суммы 270ГБ+190ГБ как раз и даёт примерно 1ТБ. Ну пусть даже статьи стали в 5 раз весомее, всё равно это единицы ТБ.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 13:47 
Заслуженный участник
Аватара пользователя


31/01/14
11305
Hogtown
Neustanovlennoe_lico в сообщении #1401183 писал(а):
Внешний hdd накопитель стоит такого объема стоит 9-10 тыс. руб.
Вопрос был не вам, поскольку речь шла об англоязычной вики, то мне нужна ссылка на нее, а не спекулятивные расчеты (хотя бу потому, что накопители одной и той же емкости могут стоить совершенно по разному), и в любом случае это никакого отношения к бюджету не имеет.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 14:15 


17/04/19
20
Dmitriy40
Произвольная аппроксимация это и дала - единицы тб, менне вероятно до 50 тб.

Red_herring
Простите, не тому отправил.
Вот такие накопители я имел ввиду.
Вот например:
https://www.dns-shop.ru/product/a19e243 ... hp5000401/
Или вот:
https://www.dns-shop.ru/product/bbb763a ... dr5000203/
О таком накопителе я завел речь потому, что его хватит на весь домашний "Архив".

Aritaborian
Присоединяюсь к Red_herring, дайте ссылку.

Pphantom
Вот, сделал примерную оценку, смотрите выше.

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 14:25 
Заслуженный участник


09/05/12
25179
Ее не совсем вы сделали, ну да ладно. Итого нужен примерно терабайт в год только на хранение. Поскольку мы пытаемся спасаться от катаклизмов и т.п., то нужно резервирование и хорошие накопители, а также стенд для их подключения. Итого желание платить за все это осталось?

 Профиль  
                  
 
 Re: Научные материалы из онлайна в оффлайн.
Сообщение24.06.2019, 14:31 


17/04/19
20
Pphantom
Да. Я изначально это и предполагал.
Что за стенды? Имелась ввиду док-станция для одновременного подключения нескольких накопителей?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 46 ]  На страницу Пред.  1, 2, 3, 4  След.

Модератор: Модераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: DimaM


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group