2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки





Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3, 4, 5  След.
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение14.02.2017, 20:32 


17/10/08
960
вставлю свои 5 копеек

Если данные составляют десятки гигабайт и нет подходящего железа, то, действительно, данные можно поместить в базу данных (классика жанра - это куб или несложная значительно денормализованная схема). Для анализа использовать выборки или агрегаты из базы. Тогда требования к памяти снизятся.

Припоминаю, что при чтении csv-файлов можно указывать типы столбцов, что, теоретически, может дать экономию памяти.

Насчет того, что RStudio вызывает проблемы, у меня сильные сомнения. RStudio, как я понимаю, это "просто" надстройка, которая открывает сессии R, посылает туда команды и вычитывает оттуда данные.

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение14.02.2017, 21:57 


21/10/16
86
EUgeneUS в сообщении #1192718 писал(а):
Зачем Вам визуализировать? Тут два вопроса:
1. Зачем Вам, как специалисту в анализе данных, визуализация? Вы хотите медитировать на картинки, прозревать тренды и выдавать прогнозы?
2. Зачем Вам, как специалисту в анализе данных, заниматься рисованием красивых картинок с красивыми графиками в 5D (или более чем в 5D)? Визуализировать имеет смысл конечный результат для конечного пользователя, и пусть этим занимаются "проектировщики графического интерфейса".


Под методами data mining подразумеваются любые методы, как визуальные, так и аналитические, позволяющие «нащупать» структуру в данных. Грубо говоря, все многомерные методы (методы анализа многомерных данных) делятся всего на два метода: методы визуализации и методы классификации с обучением. С помощью визуализации можно добывать знания, рассматривая (как это не смешно звучит) "красивые картинки". В R существует много возможностей для этого, например: составные и матричные графики, пиктограммы, тени многомерных облаков, дендрограммы.

Мне каждое действие нужно подкреплять построением "красивых графиков" (как говорят и требуют руководители), чтобы всем менеджерам и топ-менеджерам было все понятно, очевидно и прозрачно. Приходится дополнительно строить много базовых диаграмм (боксплоты, барплоты, плотности распределения).

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение14.02.2017, 23:18 
Админ форума
Аватара пользователя


19/03/10
8694
neg_lib в сообщении #1192543 писал(а):
Есть компания [ссылка удалена] она есть в Москве. Я там работал, вам там все посчитают))
 !  neg_lib, замечание за рекламу и оффтопик. Ссылка удалена.

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение14.02.2017, 23:48 


11/02/17

47
matemat в сообщении #1192752 писал(а):
Мне каждое действие нужно подкреплять построением "красивых графиков" (как говорят и требуют руководители), чтобы всем менеджерам и топ-менеджерам было все понятно, очевидно и прозрачно. Приходится дополнительно строить много базовых диаграмм (боксплоты, барплоты, плотности распределения).


Расскажите, как у вас происходит весь процесс проведения исследования по шагам?
Кто участвует, как формулируют требования итд.

Один вы не сможете вести весь этот проект, постарайтесь сразу объяснить это участникам.
Задавайте им правильные вопросы. Сейчас кину несколько ссылок, дайте им почитать.
Я именно через вопросы всегда получаю нужный результат.

Не могу найти нормальных статей по Data Mining https://basegroup.ru/community/articles/data-mining и по Data_processing https://en.wikipedia.org/wiki/Data_processing

Лучше искать на западных сайтах. Это два разных процесса и нужно не перемешивать в одном лице.
Всегда возникает куча вопросов и у разработчиков и у аналитиков, которые не видели в начале.

Вы, как математик должны заниматься Data Mining - думать над мат. алгоритмами и говорить, какие данные нужны -
описывать точную структуру данных и нужный объем.

Вообще это похоже на стартап, никто не знает, как будет работать в конце.

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение15.02.2017, 00:23 


21/10/16
86
neg_lib в сообщении #1192779 писал(а):
Сейчас кину несколько ссылок, дайте им почитать.

Cкиньте пожалуйста!

neg_lib в сообщении #1192779 писал(а):
Вообще это похоже на стартап, никто не знает, как будет работать в конце.

Это Вы точно! Так и есть! Компания не маленькая, но это (data mining) стартап! Цель -- гига-, тера-, пета- ... байты накопившейся неструктурированной информации превратить в хорошие деньги! Стартап, никто ничего не знает (хотя каждый developer, senior analytic, project manager, product owner и тд и тп. мнит себя в роли эксперта по data science, начитавшись через гугл "умных" статей), риски огромные! Если не увидят бизнес результаты (о чем говорят на митингах), закроют, ну а меня выгонят ... По большей части я сейчас нахожусь получается, как я недавно осознал, в качестве мальчика для битья палками :)

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение15.02.2017, 00:34 


11/02/17

47
https://www.piter.com/collection/starye ... pravlennoe - вот книжка, можно полистать

У нас на первом этаже был Data_processing на втором Data Mining (он делился на количественные и качественные отделы)

На третьем менеджеры.

P.S. Это целая "индустрия", но очень хорошо, что многие начинают хотеть малую копию у себя :D
Нужно это ускорять в России.

-- 15.02.2017, 01:44 --

matemat в сообщении #1192787 писал(а):
Это Вы точно! Так и есть! Компания не маленькая, но это (data mining) стартап!


Попробуйте найти консультанта, на время первого исследования.

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение15.02.2017, 00:50 


21/10/16
86
neg_lib в сообщении #1192793 писал(а):
вот книжка, можно полистать

Спасибо!

neg_lib в сообщении #1192779 писал(а):
Расскажите, как у вас происходит весь процесс проведения исследования по шагам?
Кто участвует, как формулируют требования итд.

Я бы сказал хаотично, методом последовательных приближений. Формализованной методики нет. Я предлагал заняться составлением методики, но отклонили, на это времени/ресурсов в бюджете нет.
Требований формализованных нет. В основном все происходит устно и поверхностно на митингах (бла-бла-бла).
Шаги процесса (итеративного) можно описать так:
1) Указание, видение цели (руководители)
2) Поиск источников данных, получение и предобработка данных, формирование выборок-сэмплов (я и иногда разработчики, но многие думают, что должен быть 100% я)
3) Анализ данных и выводы (я, если удается пройти этап 2, но сейчас я застрял на втором этапе)
4) Репортинг (я), обсуждение результатов/выводов, корректировка планов/задач (все участники). Самая "горячая и больная" для меня тема в плане коммуникаций, так как у меня есть некоторые проблемы с речью и устным мыслеизложением и общением вообще.

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение15.02.2017, 00:59 


11/02/17

47
matemat в сообщении #1192798 писал(а):
Требований формализованных нет. В основном все происходит устно и поверхностно на митингах.


Понятно :-) Я стараюсь с математиком по почте всегда работать, все могут подумать и дать точные ответы.
Список вопросов = список ответов(начальство в копии - все счастливы)
На митинги, толку мало - не хожу.

Отладка, тоже по почте - копии экрана с ошибками и исправлениями.

Но, когда пошло внедрение, приходится руками показывать разок.

-- 15.02.2017, 02:22 --

Цитата:
Шаги процесса (итеративного) можно описать так:


Думаю, вам надо написать список вопросов и решений и послать руководству по почте и требовать ответа.
Мне помогает)

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение15.02.2017, 01:33 


21/10/16
86
neg_lib в сообщении #1192799 писал(а):
Я стараюсь с математиком по почте всегда работать, все могут подумать и дать точные ответы.

Какая у Вас роль, чем занимаетесь Вы и чем математик? И почему у вас в компании так?

neg_lib в сообщении #1192799 писал(а):
надо написать список вопросов и решений и послать руководству по почте и требовать ответа.


Можно поконкретнее, пример?
Я писал несколько писем с вопросами. Но ответов так и не получал. Все заканчивалось тем, что на митингах эти вопросы замусоливались и навязывалась "воля" руководителей и "экспертов". Например, одним из моих вопросов в рамках задачи поиска аномалий был вопрос существующей в компании классификации аномалий с предложением её построить в общем виде и дать определение того, что мы понимаем под аномалией. Вопрос мягко сказать проигнорирован.

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение15.02.2017, 01:48 


11/02/17

47
matemat в сообщении #1192804 писал(а):
Какая у Вас роль, чем занимаетесь Вы и чем математик? И почему у вас в компании так?


Работаю обычно - full stack developer - http://www.laurencegellert.com/2012/08/ ... -developer
Так проще, делаю часть системы под ключ.
Меньше народу, меньше проблем.
Потом, поддерживаю и навешивают новые задачи.

Математик прислал файл с формулами - расчет транспортных задач с описанием.
Я определил на чем лучше сделать(хватило Excel) Он теперь делает шаблоны машина в них грузит данные все автоматом.
Аналитики смотрят шаблоны(храню в блобах)

Пришлось продумать всю схему, не доверяю лохам(все испортят).Даже хорошую идею запорят.
Сделают сложно и криво, а я буду мучиться - лучше фул стачить и денег требовать за это.
Но, иногда страдаю от этого :D

-- 15.02.2017, 03:16 --

matemat в сообщении #1192804 писал(а):
Я писал несколько писем с вопросами. Но ответов так и не получал. Все заканчивалось тем, что на митингах эти вопросы замусоливались и навязывалась "воля" руководителей и "экспертов".



Тут, я не понимаю, они предлагают решение, но оно другое? Вы, зафиксируйте результат беседы с руководством.
Я думаю, что они сами не знают, надо им помогать мыслить вопросами и ответами :D

P.S Думаю, что ситуация понятна. Постарайтесь не подписываться под все требования.

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение15.02.2017, 02:52 
Заслуженный участник


15/05/05
3340
USA
mserg в сообщении #1192726 писал(а):
Насчет того, что RStudio вызывает проблемы, у меня сильные сомнения. RStudio, как я понимаю, это "просто" надстройка, которая открывает сессии R, посылает туда команды и вычитывает оттуда данные.
"Просто" надстройка - это RGui, часть пакета R. R-Studio - это более сложный и ресурсоемкий продукт.

matemat,
попробуйте погуглить: "r big data", "how to handle big data in r" и т.п.
Пример: Five ways to handle Big Data in R

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение15.02.2017, 10:13 


17/10/08
960
Yuri Gendelman
я тоже могу дать ссылки Вам почитать.

Но был чисто конкретный вопрос, что использование RStudio критично в плане использования ресурсов.
RStudio ресурсы, конечно, поедает, но не настолько чтобы "вообще". Например, для моих задач, R-сессия занимает занимает 6-12GB, а RStudio - 1GB. Если это не так - вэлкам

Сама тема задает контекст, в рамках которого и отвечаю.

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение15.02.2017, 14:27 
Заслуженный участник
Аватара пользователя


01/08/06
2089
Уфа
matemat в сообщении #1192804 писал(а):
Например, одним из моих вопросов в рамках задачи поиска аномалий был вопрос существующей в компании классификации аномалий с предложением её построить в общем виде и дать определение того, что мы понимаем под аномалией.
И до этого было понятно, что Вам повезло с работой, но на этом месте стало очевидно, что Вы прямо-таки счастливый билет вытащили :mrgreen:
Абстрактная задача "поиска аномалий" неразрешима. В том смысле, что её ещё никому даже не удалось поставить. В каждой конкретной задаче — свои конкретные аномалии, их можно пробовать искать.

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение15.02.2017, 15:45 


11/02/17

47
worm2 в сообщении #1192907 писал(а):
И до этого было понятно, что Вам повезло с работой, но на этом месте стало очевидно


Петр 1 вез европейских консультантов, они учили строить корабли - тут, похожая ситуация.

https://www.youtube.com/watch?v=7M_5fsPMjSE
https://www.youtube.com/watch?v=qKlPJlTPnzE

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение15.02.2017, 16:06 
Заслуженный участник


06/07/11
3089

(Оффтоп)

matemat в сообщении #1192798 писал(а):
Я предлагал заняться составлением методики, но отклонили, на это времени/ресурсов в бюджете нет.
Требований формализованных нет. В основном все происходит устно и поверхностно на митингах (бла-бла-бла).
У меня родственник работает в датамайнинговом стартапе в Москве. Он там что-то вроде админа (он сам толком не знает, и никто другой тоже). Рассказывает почти то же самое, чуть ли не слово в слово. Вот мне интересно: вы в одном месте работаете или это просто везде так?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 69 ]  На страницу Пред.  1, 2, 3, 4, 5  След.

Модераторы: Toucan, maxal, Karan, PAV, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group