Доброго времени суток.
В научной литературе в последнее время много внимания уделяется возможностям QSAR-моделирования, в том числе и, например, прогнозированию значений LC50. Все работы, которые я видела в качестве датасетов используют таблицы, состоящие, как минимум из SMILES и LC50 для каждой конкретной молекулы. При этом значения LC50 либо определены экспериментально, либо получены с помощью многочисленных on-line сервисов (GUSAR и т.д.) с различной степенью точности. Потом выборку соединений условно делят на активные и неактивные и с помощью набора молекулярных дескрипторов получают QSAR модели, которые удачно или менее удачно описывают токсичность по каждому из соединений.
Вопрос заключается в следующем: можно ли провести прогноз, например, LC50, только используя SMILES или какой-либо другой способ представления исходной формулы соединения в качестве стартовой информации? Полученные результаты для каждой из QSAR-моделей сравнить с экспериментальными LC50 (которые в расчете не участвовали). Если полученные результаты по какой-либо из модели более или менее соответствуют (возможно понадобится введение поправки в границах соединений одной группы), то эту модель далее использовать для расчета LC50 новых молекул, которые ранее еще не были синтезированы и исследованы на практике.
Если такая возможность существует, то где можно прочитать об этом. Поскольку мне пока не удалось найти примеров в ни в литературе, ни на, например,
https://github.com/. Хотя вполне вероятно, что я неправильно задают запрос на поиск. Поскольку пока только пытаюсь разобраться в данной области.
Заранее спасибо!