Investigadores de Toronto usan IA para crear nuevas proteínas
Investigadores en Universidad de Toronto han desarrollado un sistema de inteligencia artificial que puede crear proteínas que no se encuentran en la naturaleza usando difusión generativa, la misma tecnología detrás de plataformas de imágenes populares como LOSA Y medio camino.
El sistema ayudará a avanzar en el campo de la biología generativa, que promete acelerar el desarrollo de fármacos al hacer que el diseño y las pruebas de terapias de proteínas completamente nuevas sean más eficientes y flexibles.
“Nuestro modelo aprende representaciones de imágenes para generar proteínas completamente nuevas, a un ritmo muy alto”, explica Philip M. Kim, profesor de la Centro Donnelly de Investigación Celular y Biomolecular en U de T Facultad de Medicina de Temerty. «Todas nuestras proteínas parecen ser biofísicamente reales, lo que significa que se pliegan en configuraciones que les permiten realizar funciones específicas dentro de las células».
Hoy, la revista Nature Computational Science publicado los resultados, los primeros de su tipo en una revista revisada por pares. El laboratorio de Kim también lanzó un preimpresión sobre el modelo el verano pasado a través del servidor de acceso abierto bioRxiv, antes de dos preimpresiones similares en diciembre pasado, transmisión de radiofrecuencia por la Universidad de Washington y croma por Generate Biomedicines.
Las proteínas están hechas de cadenas de aminoácidos que se pliegan en formas tridimensionales, que a su vez dictan la función de la proteína. Estas formas han evolucionado durante miles de millones de años y son variadas y complejas, pero también limitadas en número. Con una mejor comprensión de cómo se pliegan las proteínas existentes, los investigadores comenzaron a diseñar modelos de plegado que no se producen en la naturaleza.
Pero un gran desafío, dice Kim, ha sido imaginar pliegues que sean tanto posibles como funcionales. «Ha sido muy difícil predecir qué pliegues serán reales y funcionarán en una estructura proteica», dice Kim, quien también es profesora en los departamentos de genética molecular Y informática en la U de T. «Al combinar representaciones basadas en la biofísica de la estructura de la proteína con métodos de imágenes de dispersión desde el espacio, podemos comenzar a resolver este problema».
El nuevo sistema, que los investigadores llaman ProteinSGM, se basa en un gran conjunto de representaciones similares a imágenes de proteínas existentes que codifican con precisión su estructura. Los investigadores introducen estas imágenes en un modelo de difusión generativa, que gradualmente agrega ruido hasta que cada imagen se convierte en todo ruido. El modelo rastrea cómo las imágenes se vuelven más ruidosas, luego ejecuta el proceso a la inversa, aprendiendo a convertir píxeles aleatorios en imágenes claras que corresponden a proteínas completamente nuevas.
Jin Sub (Michael) Lee, estudiante de doctorado en Kim Lab y primer autor del artículo, explica que optimizar el primer paso de este proceso de generación de imágenes fue uno de los mayores desafíos en la creación de ProteinSGM. «Una idea clave fue la representación adecuada, similar a una imagen, de la estructura de la proteína, de modo que el modelo de difusión pudiera aprender a generar nuevas proteínas con precisión», dice Lee, quien es originario de Vancouver pero hizo su licenciatura en Corea del Sur y su maestría. Licenciatura en Suiza antes de elegir la U de T para su doctorado.
La validación de las proteínas producidas por ProteinSGM también ha sido difícil. El sistema genera muchas estructuras, a menudo diferentes a todo lo que se encuentra en la naturaleza. Casi todos parecen reales según las medidas estándar, dice Lee, pero los investigadores necesitaban más pruebas.
Para probar sus nuevas proteínas, Lee y sus colegas recurrieron primero a OmegaFolduna versión mejorada del software DeepMind Alfa plegable 2. Ambas plataformas usan IA para predecir la estructura de la proteína en función de las secuencias de aminoácidos.
Con OmegaFold, el equipo confirmó que casi todas sus nuevas secuencias se pliegan en las estructuras proteicas novedosas y deseadas. Luego eligieron un número más pequeño para crear físicamente en tubos de ensayo, para confirmar que las estructuras eran proteínas y no solo cadenas parásitas de compuestos químicos.
«Con coincidencias en OmegaFold y pruebas experimentales en el laboratorio, pudimos estar seguros de que se trataba de proteínas plegadas correctamente. Fue increíble ver la validación de estos pliegues de proteínas completamente nuevos que no existen en ninguna parte de la naturaleza», dice Lee.
Los próximos pasos basados en este trabajo incluyen un mayor desarrollo de ProteinSGM para anticuerpos y otras proteínas con el mayor potencial terapéutico, dijo Kim. “Será un área muy interesante para la investigación y el espíritu empresarial”, añade.
Lee dice que le gustaría ver que la biología generativa evolucione hacia el codiseño de secuencias y estructuras de proteínas, incluidas las conformaciones de cadenas laterales de proteínas. La mayor parte de la investigación hasta la fecha se ha centrado en la generación de esqueletos, las estructuras químicas primarias que mantienen unidas a las proteínas.
«Las configuraciones de la cadena lateral determinan en última instancia la función de la proteína y, aunque diseñarlas significa un aumento exponencial de la complejidad, puede ser posible con la ingeniería adecuada», dice Lee. «Esperamos averiguarlo».