2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Ember Dataset
Сообщение06.11.2023, 00:15 
Добрый день.

На гитхабе https://github.com/elastic/ember в архиве датасет лежит в jsonl файлах. Сними все понятно в общем-то.
А на kaggle https://www.kaggle.com/datasets/trinhvanquynh/ember-for-static-malware-analysis/versions/1/data в архиве скачиваются бинарные .dat файлы. Я не могу понять, какое между ними отношение. Из jsonl как-то получаются dat файлы или наоборот. В найденных работах с ember dataset все используют бинарные, а в описании используют jsonl.

Или я не то ищу?

 
 
 
 Re: Ember Dataset
Сообщение06.11.2023, 15:51 
Код:
import ember
import pandas as pd

X, y = ember.read_vectorized_features("n:\\Datasets\\kaggle_ember\\", "train")
df = pd.DataFrame(X)
df.to_csv("e:\\features_in_a_csv_file.csv")


Вот так с варнингами
Цитата:
WARNING: EMBER feature version 2 were computed using lief version 0.9.0-
WARNING: lief version 0.13.2-2d9855fc found instead. There may be slight inconsistencies
WARNING: in the feature calculations.


получилась csv в 11 слишним гиг, не совсем то, что хотелось, но буду пока разбираться с ней.

 
 
 
 Re: Ember Dataset
Сообщение06.11.2023, 16:32 
BlackEric в сообщении #1616462 писал(а):
slight inconsistencies


До тех пор, пока не начнут вырисовываться осмысленные результаты - на это можно смело забить. ИМХО.

 
 
 [ Сообщений: 3 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group