Un nuevo enfoque de aprendizaje automático llamado DreaMS ha sido desarrollado con el fin de acelerar el análisis de moléculas previamente desconocidas, como se detalla en un estudio publicado en Nature Biotechnology. El equipo de investigación, liderado por el Dr. Tomás Pluskal del IOCB de Praga y su estudiante Roman Bushuiev, en colaboración con el Instituto Checo de Informática, Robótica y Cibernética de la Universidad Técnica Checa (CIIRC CTU), compuesto por el Dr. Josef Sivic y Anton Bushuiev, ha logrado avances significativos en este campo.
La identificación de moléculas desconocidas en la naturaleza es crucial para el desarrollo de nuevos fármacos, pesticidas más respetuosos con el medio ambiente y una mayor comprensión de los procesos biológicos. Sin embargo, interpretar los datos generados por la espectrometría de masas, método utilizado para capturar los patrones únicos de cada molécula, puede resultar extremadamente desafiante. Para abordar este problema, el equipo ha aplicado técnicas de inteligencia artificial inspiradas en modelos lingüísticos como ChatGPT para desarrollar el modelo DreaMS. Este modelo utiliza el aprendizaje automático autosupervisado para interpretar los espectros de masas y descubrir las estructuras moleculares ocultas en los datos. Gracias a un extenso entrenamiento con millones de espectros de diversas fuentes, DreaMS es capaz de identificar similitudes entre moléculas aparentemente no relacionadas.
La creación de una red interconectada llamada Atlas DreaMS facilita la navegación por los datos químicos, permitiendo a los usuarios explorar conexiones entre distintos espectros y formular nuevas preguntas. Además de revelar similitudes químicas inesperadas, el modelo también puede utilizarse para tareas prácticas como estimar la composición de una molécula o identificar la presencia de elementos químicos específicos.
Los investigadores se encuentran actualmente trabajando en la capacitación del modelo para predecir estructuras moleculares completas, lo que podría transformar radicalmente nuestra comprensión de la diversidad química en la Tierra y más allá.