Naukowcy ogłosili udostępnienie BigSolDB 2.0, obszernego repozytorium danych dotyczących rozpuszczalności związków organicznych w różnorodnych rozpuszczalnikach. Ten cenny zasób zawiera 103 944 eksperymentalnych wartości rozpuszczalności dla 1448 związków organicznych w 213 rozpuszczalnikach, obejmując zakres temperatur od 243 do 425 K. Dane te zostały skrupulatnie zebrane z 1595 recenzowanych artykułów naukowych, co podkreśla ich wiarygodność i wszechstronność.
Rozpuszczalność jest kluczową właściwością związków organicznych, mającą fundamentalne znaczenie dla ich zastosowań w chemii, materiałoznawstwie i farmacji. Pomimo tego, przewidywanie wartości rozpuszczalności dla związków organicznych w rozpuszczalnikach innych niż woda, w oparciu jedynie o ich strukturę molekularną, pozostaje znaczącym wyzwaniem w dziedzinie cheminformatyki. Wynika to w dużej mierze z ograniczonej dostępności dużych i zróżnicowanych zbiorów danych. BigSolDB 2.0 wypełnia tę lukę, dostarczając ustandaryzowane dane w formacie czytelnym maszynowo, co ułatwia analizę opartą na danych i rozwój zaawansowanych modeli predykcyjnych.
Udostępnienie BigSolDB 2.0 stanowi znaczący krok naprzód, umożliwiając badaczom tworzenie i walidację modeli uczenia maszynowego do przewidywania rozpuszczalności. Wcześniejsze prace, takie jak wyzwania związane z przewidywaniem rozpuszczalności (np. SC-1 i SC-2), wykazały trudności w osiągnięciu wysokiej dokładności, często z błędem średniokwadratowym (RMSE) przekraczającym 1 logarytm. Nowe zbiory danych, takie jak BigSolDB 2.0, są niezbędne do przezwyciężenia tych ograniczeń i rozwijania bardziej niezawodnych metod predykcyjnych. Potwierdzają to badania nad modelami uczenia maszynowego, w tym sieciami neuronowymi typu graph neural networks (GNNs), które wykazują obiecujące wyniki w przewidywaniu rozpuszczalności w różnych układach rozpuszczalników.
Oprócz samego zbioru danych, opracowano narzędzie internetowe ułatwiające wizualizację i wyszukiwanie informacji. To kompleksowe podejście zapewnia, że BigSolDB 2.0 służy jako wszechstronny punkt odniesienia dla rozwoju algorytmów uczenia maszynowego, potencjalnie przyspieszając odkrycia w dziedzinach wymagających precyzyjnego zrozumienia rozpuszczalności związków organicznych. Rozwój ten wpisuje się w szerszy trend wykorzystania metod obliczeniowych i sztucznej inteligencji w celu usprawnienia procesów badawczo-rozwojowych, zwłaszcza w farmacji, gdzie dokładne przewidywanie rozpuszczalności jest kluczowe dla sukcesu kandydatów na leki.