Исследователи представили BigSolDB 2.0 — обширный набор данных, содержащий 103 944 экспериментальных значений растворимости для 1448 органических соединений в 213 различных растворителях. Этот ресурс, охватывающий температурный диапазон от 243 до 425 Кельвинов и собранный из 1595 рецензируемых научных статей, призван стать ключевым инструментом для хемоинформатики. Он значительно улучшает возможности прогнозирования растворимости, что является критически важной задачей для таких областей, как химия, материаловедение и фармацевтика.
Вся информация, включая молекулярные структуры растворенных веществ и растворителей, а также данные о растворимости, стандартизирована и представлена в машиночитаемом формате для облегчения анализа и разработки моделей машинного обучения. В дополнение к самому набору данных разработан веб-инструмент, позволяющий визуализировать и искать информацию в интерактивном режиме. Точное прогнозирование растворимости органических соединений, особенно в растворителях, отличных от воды, остается сложной задачей.
Исторически для решения этой проблемы использовались различные подходы, такие как квантовая механика и общие уравнения растворимости (GSE), однако они часто оказываются вычислительно затратными или требуют значительных усилий для получения точных результатов. Машинное обучение и глубокое обучение предлагают более быстрые и эффективные решения, но их эффективность напрямую зависит от качества и объема обучающих данных. Исследования, подобные второму «Соревнованию по растворимости», организованному Американским химическим обществом в 2019 году, подчеркнули важность высококачественных данных, показав, что модели глубокого обучения, обученные на больших наборах данных, могут достигать производительности, близкой к современным стандартам.
BigSolDB 2.0 служит комплексной базой для создания и валидации моделей машинного обучения, направленных на прогнозирование растворимости. Его создание отражает растущую потребность в стандартизированных и обширных наборах данных, которые могут преодолеть ограничения предыдущих исследований, часто фокусировавшихся только на водной растворимости. Разработчики лекарств все чаще полагаются на предиктивное моделирование для оптимизации разработки лекарств, поскольку плохая растворимость является серьезным препятствием для биодоступности, затрагивая от 70% до 90% новых химических соединений. Таким образом, наличие такого ресурса, как BigSolDB 2.0, имеет решающее значение для ускорения исследований и разработок в фармацевтической и химической промышленности, позволяя ученым более точно предсказывать поведение соединений и оптимизировать их применение.