2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3, 4, 5  След.
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение15.02.2017, 21:16 


11/02/17

47
matemat в сообщении #1192530 писал(а):
Мне выгрузили из базы данных несколько десятков файлов, каждый размером не менее 1 Гб.


Тут, тоже плохое решение.
Мы сделали вьюхи и дали математику PL-SQL клиента.
Он правил интервалы в запросе и сам выгружал, что надо и когда надо.
Нужно делегировать задачу.
Идеально, когда вообще не беспокоят по мелочам, не отвлекают :D
Можно уйти на часик, два и никто и не заметит.

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение15.02.2017, 23:18 


21/10/16
91
rockclimber в сообщении #1192924 писал(а):
У меня родственник работает в датамайнинговом стартапе в Москве. Он там что-то вроде админа (он сам толком не знает, и никто другой тоже). Рассказывает почти то же самое, чуть ли не слово в слово. Вот мне интересно: вы в одном месте работаете или это просто везде так?


Может я и есть ваш родственник :lol:
У нас в компании на проекте пока только одна позиция data scientist, которую я единолично и занимаю. До этого такого направления вообще в компании как бы и не существовало. ЭкспериментУм.
Если серьезно, то думаю, что в целом эта отрасль для многих компаний в России еще сыроватая. Желаний, амбиций очень много, а понимания очень мало. Нам eще всем учиться и учиться, даже методом "набития шишок". Только гиганты бизнеса, вроде Сбербанка, Газпрома и большой тройки в российском телекоме могут себе позволить крупные отделы по big data, data mining. Другие же наверное хотят объединить условно все в одном человеке и быстро получить результаты, то есть надеятся что прилетит "добрый волшебник на голубом вертолете и ..." :-).

-- 15.02.2017, 23:24 --

neg_lib в сообщении #1192989 писал(а):
Мы сделали вьюхи и дали математику PL-SQL клиента.


Это что такое?

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение16.02.2017, 00:10 


11/02/17

47
matemat в сообщении #1193028 писал(а):
Это что такое?


Ну, это штуки в базе, просто скажите кодерам, они сделают.

У меня вопрос к аудитории.
Как думаете, насколько возможно автоматизировать все процессы по анализу?
И как это может выглядеть?

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение16.02.2017, 01:04 
Заслуженный участник


06/07/11
5627
кран.набрать.грамота
matemat в сообщении #1193028 писал(а):
Может я и есть ваш родственник :lol:
Я ж сказал - он админ, а не дата саентист. У него даже высшего образования нет. Правда, это не мешает ему быть хорошим админом.

-- 16.02.2017, 02:14 --

matemat в сообщении #1193028 писал(а):
Это что такое?
Как я уже говорил выше :mrgreen: - Oracle Database. Если серьезно, то PL/SQL - это процедурный язык, используемый в СУБД Oracle. Что такое SQL, знаете наверно. А это в некотором роде расширение. У каждой СУБД почти такое есть. У некоторых - даже по нескольку. У оракла - pro C, pl/sql и java (в 99% случаев используется pl/sql, в 1% - java, а pro C я только в книжке на картинке видел). У MSSQL - T-SQL. У постгреса - plpgsql (явно содран с угадайте кого, даже название почти то же), плюс еще штук пять: какая-то разновидность питона, С, еще пары-тройки популярных языков. У MySQL тоже вроде что-то такое есть, не знаю, как называется.

-- 16.02.2017, 02:24 --

neg_lib в сообщении #1193037 писал(а):
matemat в сообщении #1193028 писал(а):
Это что такое?


Ну, это штуки в базе, просто скажите кодерам, они сделают.
Ну во-первых, просить придется не кодеров, а админов, а точнее - DBA, а во-вторых, еще неизвестно, какая у ТС СУБД.


neg_lib в сообщении #1193037 писал(а):
У меня вопрос к аудитории.
Как думаете, насколько возможно автоматизировать все процессы по анализу?
И как это может выглядеть?
Автоматизировать что угодно можно. Вы конкретнее спрашивайте. У вас же оракл, там чего только нет...

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение16.02.2017, 02:15 


11/02/17

47
rockclimber в сообщении #1193053 писал(а):
Вы конкретнее спрашивайте.


Когда делаем анализ, то строим модель.
Для модели нужны данные, чем больше данных, тем она точнее.
Точность величина бесконечная, нужно округлять.

Лучше данные держать в базе не грузить на клиента, клиент ползает по ней через VIEW в заданной выборке
и насчитывает модель кусками.

VIEW можно динамически менять, как пожелает алгоритм.

Можно ли требовать от математика построение такого алгоритма?

И когда такая схема не возможна, если используем python или R с библиотеками для расчетов?

Думаю, что возможно. Recordset динамически меняется, а все библиотеки через него работают с данными.
Они не отличают, где данные на клиенте или в базе.

Все сообразил :D Вопрос снят.

Только надо подумать, как можно ускорять расчет.

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение16.02.2017, 03:29 


11/02/17

47
Подскажите, какие Recordset самые быстрые, где можно найти сравнение?

Кто помоложе, у того и быстрее(шутка)

The END

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение16.02.2017, 10:38 
Заслуженный участник


06/07/11
5627
кран.набрать.грамота
neg_lib в сообщении #1193063 писал(а):
Когда делаем анализ, то строим модель.
Для модели нужны данные, чем больше данных, тем она точнее.
Точность величина бесконечная, нужно округлять.
...
VIEW можно динамически менять, как пожелает алгоритм.
...
И когда такая схема не возможна, если используем python или R с библиотеками для расчетов?
Описание задачи все равно какое-то сферично-вакуумное получается. Конкретика - это вот совсем конкретика. Какая СУБД, какие опции включены, есть ли отдельные хранилища (DWH) или вы прямо в OLTP-системе аналитику считаете ("денег нет, но мы держимся"), и т. д. Опять же оракл у вас какой - купленный или не очень? Оракл - контора жадная, даже если у вас Enterprize Edition, всякие полезные опции (партицирование, например) надо отдельно докупать. Да и я вам много не расскажу, я с хранилицами не работал. Это вам лучше спрашивать на sql.ru (если на русском) или прямо на community.oracle.com.

neg_lib в сообщении #1193063 писал(а):
Можно ли требовать от математика построение такого алгоритма?
Требовать-то можно :wink: , но архитектурные вещи лучше спрашивать у того, кто лучше знает используемый софт. Есть у вас админы или разработчики БД - лучше по возможности привлекать их.

neg_lib в сообщении #1193064 писал(а):
Подскажите, какие Recordset самые быстрые, где можно найти сравнение?
А что вы называете Recordset'ом? Обычно так называли классы, которые хранят в себе результаты SQL-запроса (и сами эти результаты), в Delphi, VB/VBA и прочих языках общего назначения. В СУБД аналогичная структура называется курсором обычно (в оракле уж точно). И сравнивать их по скорости бессмысленно, надо сравнивать сами СУБД. А какая самая быстрая - неизвестно, каждый кулик свое болото хвалит, а методику сравнения, которая понравилась бы всем, пока не изобрели. Наиболее известные тесты - это вроде бы TPC, но я ими не интересовался особо.

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение16.02.2017, 12:09 


11/02/17

47
rockclimber в сообщении #1193112 писал(а):
А что вы называете Recordset'ом?


Я попытался обобщить. Любой алгоритм работает по шагам с массивом данных(Recordset'ом)

Скорость Recordset - величина суммарная включает много параметров(согласен) и как он реализован и на чем.
Кешировать данные в память не сможем, если они большие - остается бегать по ним в базе и менять запросы.

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение16.02.2017, 12:43 
Заслуженный участник


06/07/11
5627
кран.набрать.грамота
neg_lib в сообщении #1193142 писал(а):
Кешировать данные в память не сможем
Что, даже temporary table нельзя сделать? Такое ощущение, что у вас в начальстве садисты из Гестапо.

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение16.02.2017, 12:51 


11/02/17

47
По сути обработка данных - это предельный переход от массивов данных к знаниям(тоже массив данных)

Данные = Знания (предельный переход - Recordset)

P.S. Нужно делать анализ было на КПК (сегментацию) там памяти почти нет

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение16.02.2017, 13:15 
Заслуженный участник


06/07/11
5627
кран.набрать.грамота
Так вы считайте на сервере, а начальству показывайте картинки на вебстраничках. Например, так: http://rockclimber.dxdy.ru 8-) (это Oracle Application Express, который уже у вас установлен с вероятностью 99%)

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение16.02.2017, 13:33 


11/02/17

47
А, как внешние мат. библиотеки использовать, хочется их менять при желании.

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение16.02.2017, 13:47 
Заслуженный участник


06/07/11
5627
кран.набрать.грамота
А, начальство хочет запускать процесс рассчета из интерфейса с картинками? Чтобы прямо в онлайне все было? В принципе можно, но придется повозиться, и технически красивым решение уже не назовешь. Промежуточная таблица с заданиями, внешний скрипт, который ее постоянно сканирует и запускает расчет, а на странице какой-нибудь javascript, который тоже сканирует таблицу заданий и обновляет страницу, когда расчет окончен. А вот уже со скриптом снаружи можете делать что хотите.

-- 16.02.2017, 14:49 --

Такой подход, кстати, можно не только с веб-страничками использовать, а вообще с чем угодно.

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение16.02.2017, 13:54 


21/10/16
91
rockclimber в сообщении #1193053 писал(а):
Я ж сказал - он админ, а не дата саентист. У него даже высшего образования нет. Правда, это не мешает ему быть хорошим админом.

Думал что он админом (организатором) проекта по data scince является, а не сисадмином.
rockclimber в сообщении #1193053 писал(а):
Как я уже говорил выше :mrgreen: - Oracle Database. Если серьезно, то PL/SQL - это процедурный язык, используемый в СУБД Oracle. Что такое SQL, знаете наверно.

Об Oracle слышал, но не знаком. SQL конечно знаю, как-то немного приходилось "играться" с MS Access. Но этого не достаточно, чтобы применять профессионально. Это не моя предметная область.
rockclimber в сообщении #1193053 писал(а):
еще неизвестно, какая у ТС СУБД.

Действительно я даже и не знаю какая в компании СУБД. А мне надо знать, поможет? Я как то не особо горю желанием влезать в чужие дела.


Все что вы пишете - это предмет AйТи технологий (малознакомая для меня вещь) и нужно ли это математику/data scientist? Компания от меня по-видимому ожидает что я начну решать и AйТи задачи: парсить, нормализовывать, структурировать данные ...

 Профиль  
                  
 
 Re: Анализ гигабайтов данных (проблемы и решения)
Сообщение16.02.2017, 14:23 
Заслуженный участник


06/07/11
5627
кран.набрать.грамота
matemat в сообщении #1193166 писал(а):
А мне надо знать, поможет? Я как то не особо горю желанием влезать в чужие дела.
Зависит от толщины прослойки между тем, с чем вы работаете, и СУБД. Возможно, поможет. Писать более оптимальный код извлечения данных, кэшировать результаты, выполнять часть расчетов силами СУБД. Например, если вам надо рассчитать среднее арифметическое по данным из столбца, вы можете написать
Используется синтаксис SQL
SELECT avg(column_name) FROM my_table
получить одно число и работать с ним дальше, а можете написать
Используется синтаксис SQL
SELECT column_name FROM my_table
получить 100500 чисел, посчитать среднее арифмтическое на клиенте и использовать его дальше. Как минимум, я бы проверил скорость расчета. Далеко не факт, что СУБД будет медленнее, да и расходы на передачу данных из СУБД на клиента снизятся существенно.
Но и минусы есть. Если это OLTP база, а контроль за распределением ресурсов не настроен (СУБД позволяют настраивать, сколько памяти и процессной мощности давать каждому конкретному пользователю), можно и положить ее ненароком.
matemat в сообщении #1193166 писал(а):
Все что вы пишете - это предмет AйТи технологий (малознакомая для меня вещь) и нужно ли это математику/data scientist?
Я всю жизнь думал, что да. Например, в банках, где я работал, риск-аналитики знали в общих чертах SQL и PL/SQL, хотя их работа (и образование) по сути были ближе к data science.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 72 ]  На страницу Пред.  1, 2, 3, 4, 5  След.

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group