Добрый день,
Есть соревнование (задача регрессии), в котором надо определить значения энергий по исходным данным. Подробно ознакомиться можно по ссылке:
https://www.kaggle.com/c/nomad2018-pred ... conductorsХотелось бы лучше понять физический смысл данных, чтобы сконструировать новые признаки, которые будут значимы для предсказания энергий, и, в целом, лучше разобраться с предметной областью.
Признаки:кристаллографическая группа (spacegroup), количество атомов (Al, Ga, In, O) в элементарной ячейке (unit cell), относительный состав, углы/вектора кристаллической решетки (lattice vectors and angles). Также есть данные в формате XYZ - геометрия кристалла, из которой по идее можно извлечь хорошие признаки. Пример файла xyz:
Код:
#=======================================================
#Created using the Atomic Simulation Environment (ASE)
#=======================================================
lattice_vector 9.9520877199999997 -0.0472482400000000 -0.0346579300000000
lattice_vector 0.0403159900000000 8.5511748500000007 -0.0095337700000000
lattice_vector 0.0316403800000000 0.0096659200000000 9.1774391200000007
atom 1.6088879366700000 7.2764162181499996 6.3831551912900002 Ga
atom 6.5849317966699994 7.2527920981499996 6.3658262262900003 Al
atom 3.4357584130499994 1.2597758443300000 1.7946126469900001 Al
atom 8.4118022730499984 1.2361517243300000 1.7772836819900002 Ga
...
Целевые переменные для предсказания: formation energy (энергия разрыва химической связи)
bandgap energy (ширина запрещенной зоны)
Например, можно сделать признак 'атомарной плотности' (считаем объем элементарной ячейки для данного материала и делим на него количество атомов) - получается признак, который сильно коррелирует с шириной запрещенной зоны (bandgap energy). Также в данные были добавлены элементарные свойства атомов из которых состоят вещества. Из геометрии данные были попытки извлечь признаки, интуитивно подходящие для задачи, но какого-то значимого прироста информации об энергиях они не дают.
Возможно, есть люди, которые хорошо разбираются в физике твердого тела и подскажут гипотезы, которые помогут более точно определить целевые энергии. Может быть кто-то подскажет литературу из которой можно почерпнуть определенные знания. Если где-то я ошибся с переводом на русский - поправьте, пожалуйста.