2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Удобные инструменты для дата саентиста/аналитика
Сообщение12.06.2024, 20:32 
Существуют ли они, вот в чем вопрос? Что я имею в виду под удобными инструментами. Примем, что основные языки работы - python и SQL. Соответственно, что нужно от инструмента. Банально
1. Естественно, интерактивность. По этому пункту все в принципе неплохо, jupyter notebooks со своей задачей справляются. Но вот дальше начинается ад.
2. Удобная работа с кодом - подсказки, help, автодополнения (как для python, так и для встроенного SQL кода), дебаг.
3. Контроль версий, возможность проводить ревью изменений блокнотов.
4. Работа с разнообразными базами данных, просмотр, быстрые запросы.
5. Ну и конечно же хочется, чтобы все это не просто было, но ещё и работало. И желательно - с минимумом приседаний с настройками.
И вот если посмотреть на существующие инструменты, то оказывается что все они убоги и не проходят даже по этим 5 самым базовым пунктам.

Допустим jupyter notebook/lab. Это база. Автодополнение убого, даже с плагином LSP - он не умеет даже подтягивать кастомные ядра. Дебаг - убог. Контроль версий - ну ок, есть плагин, который более менее работает. По 4 пункту - пустота. И тем не менее, это самый вменяемый вариант, которые хотя бы работает более-менее стабильно. Все остальное ещё хуже.

VSCode. Ну начнем с того, что по удобству это ад, чтобы его заставить походить на нормальный инструмент, надо потратить неделю, обвешать плагинами с ног до головы, разобраться в их кофигах джейсон-портянках и тд и тп. К тому же они ещё и забагованные по самые помидоры. Плагин для jupyter notebook мне однажды похерил несколько часов работы, потому что интернет лаганул и он не смог после этого приконнектиться снова к серверу и сохранить блокнот. С тех пор и я им не пользовался.

Но фиг с ними с jupyter и vscode, это бесплатный опенсорс, чего я от него хочу. Но есть вот например платный pycharm, который, казалось бы, проходит по всем пунктам. Это полноценная IDE, там и продвинутая работа с кодом, и дебаг, и клиенты к любым БД. Но это в теории. На практике же работа с блокнотами ещё хуже, чем в vscode. Там этот плагин хоть заработал. А в pycharm он при попытке подключения к серверу jupyter тупо виснет на несколько минут, потом кое как открывает блокнот. Можно даже в нем успеть что то сделать - перед очередный зависанием. Короче, в принципе не юзабельно.

Потому и возник вопрос. А есть ли в природе какой инструмент, пусть и платный, но чтобы хоть эти 5 самых базовых пунктов умел. Не говоря уж о чем то более сложном.

 
 
 
 Re: Удобные инструменты для дата саентиста/аналитика
Сообщение12.06.2024, 20:44 
alesha_popovich в сообщении #1642386 писал(а):
Примем, что основные языки работы - python и SQL.
...
А есть ли в природе какой инструмент, пусть и платный, но чтобы хоть эти 5 самых базовых пунктов умел.


Мне кажется, что п. 1-2 и 4-5 на отличном уровне удовлетворяет только R, с п. 3 надо разбираться отдельно, но пакетов в R так много, что и для этого находятся.

Или тут принципиален именно python?

 
 
 
 Re: Удобные инструменты для дата саентиста/аналитика
Сообщение12.06.2024, 21:44 
Ghost_of_past в сообщении #1642388 писал(а):
Или тут принципиален именно python?

Не принципиально, но важен :-) Т.к. я хорошо знаю питон и плохо R. Но если в R все так хорошо, как вы говорите, то готов выучить. Например по пункту 2. Какая R IDE умеет одинаково хорошо помогать писать код и на R и на SQL, при этом разбираясь в схеме данных базы, чтобы давать адекватные контекстные подсказки?

 
 
 
 Re: Удобные инструменты для дата саентиста/аналитика
Сообщение13.06.2024, 00:09 
alesha_popovich в сообщении #1642401 писал(а):
Но если в R все так хорошо, как вы говорите, то готов выучить.


На самом деле учить не сильно и много нужно: синтаксис и у python, и у R очень похожи (потому что корни обоих в языках ABC и S), а в плане интерактивности лично для меня R сильно выигрывает.

alesha_popovich в сообщении #1642401 писал(а):
Какая R IDE умеет одинаково хорошо помогать писать код и на R и на SQL, при этом разбираясь в схеме данных базы, чтобы давать адекватные контекстные подсказки?


Базовая R IDE - RStudio, желательно версия R от 3.5 и новее, а лучше от 3.6 и новее. Дальше просто нужно установить необходимые пакеты с конкретными функциями - их в R огромное количество. R применяется крайне широко, так что в сети на самом деле полно инструкций, как это быстро настроить, начиная например с этой и этой.

Кажется, Вам может особенно подойти пакет RevoScaleR, но в целом пакетов R реально очень много, поэтому лучше просто посмотреть, что подойдет в большей степени для Вас. Начать можно отсюда, а потом уже по более широкому списку пакетов.

 
 
 
 Re: Удобные инструменты для дата саентиста/аналитика
Сообщение14.06.2024, 18:38 
alesha_popovich
Подписка на GPT-4 и блокнот для сохранения сгенерированного кода. GPT-4 кроме собственно написания кода подскажет что скачать чтобы это заработало и как код запустить. GPT-4 полностью избавляет от необходимости писать, редактировать, отлаживать код. Страшно представить чем будет GPT-5.

 
 
 
 Re: Удобные инструменты для дата саентиста/аналитика
Сообщение14.06.2024, 18:42 
LOM

Меня невыносимо расстаривает, что Вы уклоняетесь от прямого ответа на вопрос:

физика - завершённая наука?

 
 
 
 Re: Удобные инструменты для дата саентиста/аналитика
Сообщение14.06.2024, 18:46 
ozheredov
Я не физик, откуда мне знать, спросите у ИИ. Я с ломом и трубой сомневаюсь, для меня даже в этом физика не завершена. Пу вчера заехал на строящийся новый синхрофазотрон в Дубне, это косвенно указывает на то, что нет, незавершенная.

 
 
 [ Сообщений: 7 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group