Нещодавно було представлено BigSolDB 2.0, масштабний набір даних, що містить 103 944 експериментальні значення розчинності для 1448 органічних сполук у 213 розчинниках, охоплюючи температурний діапазон від 243 до 425 К. Ці дані, зібрані з 1595 рецензованих наукових статей, є цінним ресурсом для галузі хемоінформатики.
Точне прогнозування розчинності є критично важливим для численних застосувань, зокрема у фармацевтиці та матеріалознавстві. Історично склалося так, що прогнозування розчинності, особливо у розчинниках, відмінних від води, було складним завданням через брак великих і різноманітних наборів даних. Попередні методи часто покладалися на спрощені моделі, які враховували лише обмежену кількість молекулярних характеристик.
BigSolDB 2.0, завдяки своїй всеосяжності та стандартизованому формату, слугуватиме надійною основою для розробки та валідації моделей машинного навчання, спрямованих на покращення прогнозування розчинності. Це дозволить дослідникам створювати більш точні алгоритми, що потенційно прискорить процес відкриття нових ліків та розробки інноваційних матеріалів.
Крім того, розробники створили веб-інструмент для візуалізації та пошуку даних, що робить BigSolDB 2.0 ще більш доступним та зручним для користувачів. Важливість таких ресурсів, як BigSolDB 2.0, підкреслюється зусиллями спільноти, спрямованими на вирішення проблем розчинності, зокрема проєктом Open Notebook Science Challenge, започаткованим у 2008 році, який також збирав дані про розчинність для створення прогностичних обчислювальних моделей.