Briefings in Bioinformatics

sincFold: aprendizaje de extremo a extremo de interacciones de corto y largo alcance en la estructura secundaria del ARN

Artículo


Las moléculas de ARN codificantes y no codificantes participan en muchos procesos biológicos importantes. Los ARN no codificantes se pliegan en estructuras secundarias bien definidas para ejercer sus funciones. Sin embargo, la predicción computacional de la estructura secundaria a partir de una secuencia de ARN en bruto es un problema sin resolver desde hace mucho tiempo, que se ha estancado en las últimas décadas.

Los algoritmos tradicionales de predicción de la estructura secundaria del ARN se han basado principalmente en modelos termodinámicos y programación dinámica para la minimización de la energía libre. Más recientemente los métodos de aprendizaje profundo han mostrado un rendimiento competitivo frente a los clásicos, pero dejando aún un amplio margen de mejora.

En este trabajo los autores presentan sincFold, un enfoque de aprendizaje profundo de extremo a extremo que predice la matriz de contactos de nucleótidos utilizando únicamente la secuencia de ARN como entrada. El modelo se basa en redes neuronales residuales jerárquicas 1D-2D que pueden aprender patrones de interacción de corto y largo alcance. Demostrando que las estructuras pueden predecirse con precisión con un mínimo de suposiciones físicas. Se llevaron a cabo amplios experimentos en conjuntos de datos de referencia bien conocidos, comparando sincFold con métodos clásicos y modelos recientes de aprendizaje profundo. Los resultados muestran que sincFold puede superar a los métodos más avanzados en todos los conjuntos de datos evaluados.

El código fuente está disponible AQUÍ

Bugnon LA, Di Persia L, Gerard M, Raad J, Prochetto S, Fenoy E, Chorostecki U, Ariel F, Stegmayer G, Milone DH. sincFold: end-to-end learning of short- and long-range interactions in RNA secondary structure. Brief Bioinform. 2024 May 23;25(4):bbae271. doi: 10.1093/bib/bbae271.

 

Puntos clave
- sincFold es un modelo DL de extremo a extremo que puede predecir con exactitud predecir con precisión la estructura secundaria a partir de una secuencia de ARN.
- Las relaciones locales y a distancia pueden aprenderse eficazmente utilizando una arquitectura secuencial 1D-2D basada en redes residuales.
- sincFold aprende representaciones internas a partir de 1D y las convierte en una representación 2D con un producto tensorial para aprender las interacciones de largo alcance en las capas siguientes.
- La configuración experimental incluye pliegues aleatorios, particiones de baja homología y validación cruzada entre familias.
- sincFold obtuvo mejores resultados que otros enfoques DL en varios conjuntos de datos.