El sistema de IA predice las consecuencias de las modificaciones genéticas
SAN FRANCISCO, Calif. – 31 de mayo de 2023 – Investigadores de los Institutos Gladstone, el Instituto Broad del MIT y Harvard, y el Instituto del Cáncer Dana-Farber recurrieron a la inteligencia artificial (IA) para ayudarlos a comprender cómo las grandes redes de humanos interconectados los genes controlan la función celular y cómo las interrupciones de estas redes causan enfermedades.
Los grandes modelos de lenguaje, también llamados modelos base, son sistemas de IA que aprenden conocimientos fundamentales a partir de grandes cantidades de datos generales y luego aplican esos conocimientos para realizar nuevas tareas, un proceso llamado transferencia de aprendizaje. Estos sistemas han captado recientemente la atención del público en general con el lanzamiento de ChatGPT, un chatbot basado en un modelo de OpenAI.
En el nuevo libro, publicado en la revista Nature, investigador asistente de Gladstone Christina Theodoris, MD, Ph.D., desarrolló un modelo básico para comprender cómo interactúan los genes. El nuevo modelo, denominado Geneformer, aprende de cantidades masivas de datos sobre interacciones genéticas de una amplia gama de tejidos humanos y transfiere ese conocimiento para hacer predicciones sobre cómo las cosas podrían salir mal en una enfermedad.
Theodoris y su equipo usaron Geneformer para arrojar luz sobre cómo las células del corazón se desregulan en la enfermedad cardíaca. Este método, sin embargo, también puede abordar muchos otros tipos de células y enfermedades.
«Geneformer tiene amplias aplicaciones en muchas áreas de la biología, incluido el descubrimiento de posibles objetivos farmacológicos para enfermedades», dice Theodoris, quien también es profesor asistente en el departamento de pediatría de UC San Francisco. «Este enfoque mejorará significativamente nuestra capacidad para diseñar terapias correctivas en red en enfermedades en las que el progreso se ha visto obstaculizado por datos limitados».
Theodoris diseñó Geneformer durante una beca posdoctoral con X. Shirley Liu, PhD, exdirectora del Centro de Epigenética Funcional del Cáncer en el Instituto del Cáncer Dana-Farber, y Patrick Ellinor, MD, PhD, director de la Iniciativa de Enfermedades Cardiovasculares del Instituto Broad, ambos autores del nuevo estudio.
Una vista de red
Muchos genes, cuando están activos, desencadenan cascadas de actividad molecular que hacen que otros genes aumenten o disminuyan su actividad. Algunos de estos genes, a su vez, afectan a otros genes o dan vueltas y ponen freno al primer gen. Entonces, cuando un científico esboza las conexiones entre unas pocas docenas de genes relacionados, el mapa de red resultante a menudo parece una telaraña enredada.
Si bien mapear un puñado de genes de esta manera es complicado, tratar de comprender las conexiones entre los 20,000 genes en el genoma humano es un desafío formidable. Pero un mapa de red tan masivo ofrecería a los investigadores una idea de cómo las redes enteras de genes cambian con la enfermedad y cómo revertir esos cambios.
«Si un fármaco se dirige a un gen periférico dentro de la red, podría tener un pequeño impacto en el funcionamiento de una célula o solo controlar los síntomas de una enfermedad», dice Theodoris. «Pero al restaurar los niveles normales de genes que juegan un papel central en la red, se puede tratar el proceso de la enfermedad subyacente y tener un impacto mucho mayor».
Inteligencia Artificial «Transferencia de Aprendizaje»
Por lo general, para mapear redes de genes, los investigadores se basan en grandes conjuntos de datos que incluyen muchas células similares. Utilizan un subconjunto de sistemas de IA, llamados plataformas de aprendizaje automático, para crear patrones en los datos. Por ejemplo, se podría entrenar un algoritmo de aprendizaje automático en una gran cantidad de muestras de pacientes con y sin enfermedad cardíaca, y luego aprender los patrones de la red de genes que diferencian las muestras enfermas de las muestras sanas.
Sin embargo, los modelos estándar de aprendizaje automático en biología están capacitados para realizar una sola tarea. Para que los modelos realicen una tarea diferente, deben volver a entrenarse desde cero con nuevos datos. Entonces, si los investigadores en el primer ejemplo ahora quisieran identificar células enfermas de riñón, pulmón o cerebro de sus contrapartes sanas, tendrían que comenzar de nuevo y entrenar un nuevo algoritmo con los datos de esos tejidos.
El problema es que, para algunas enfermedades, no hay suficientes datos existentes para entrenar estos modelos de aprendizaje automático.
En el nuevo estudio, Theodoris, Ellinor y sus colegas abordaron este problema aprovechando una técnica de aprendizaje automático llamada «aprendizaje de transferencia» para entrenar a Geneformer como un modelo fundamental cuyo conocimiento básico se puede transferir a nuevas tareas nuevas.
Primero, «entrenaron previamente» a Geneformer para que tuviera una comprensión fundamental de cómo interactúan los genes al proporcionarle datos sobre el nivel de actividad genética en aproximadamente 30 millones de células de una amplia gama de tejidos humanos.
Para demostrar que el enfoque de transferencia de aprendizaje funcionó, los científicos refinaron Geneformer para hacer predicciones sobre las conexiones entre genes, o si la reducción de los niveles de ciertos genes causaría enfermedades. Geneformer pudo hacer estas predicciones con una precisión mucho mayor que los enfoques alternativos debido a los conocimientos básicos que obtuvo durante el proceso de capacitación previa.
Además, Geneformer pudo hacer predicciones precisas incluso cuando mostró solo una cantidad muy pequeña de ejemplos de datos relevantes.
«Esto significa que Geneformer podría aplicarse para hacer predicciones sobre enfermedades en las que el progreso de la investigación ha sido lento porque no tenemos acceso a conjuntos de datos lo suficientemente grandes, como enfermedades raras y aquellas que afectan tejidos difíciles. para ser muestreados en la clínica», dice Teodoris. .
Lecciones para las enfermedades del corazón
El equipo de Theodoris decidió entonces utilizar el aprendizaje por transferencia para avanzar en los descubrimientos en el campo de las enfermedades del corazón. Primero le pidieron a Geneformer que predijera qué genes tendrían un efecto perjudicial en el desarrollo de los cardiomiocitos, las células musculares del corazón.
Muchos de los genes clave identificados por el modelo se habían relacionado previamente con enfermedades del corazón.
“El hecho de que el modelo predijera genes que ya sabíamos que eran realmente importantes para las enfermedades del corazón nos dio más confianza en su capacidad para hacer predicciones precisas”, dice Theodoris.
Sin embargo, otros genes potencialmente importantes identificados por Geneformer no se habían asociado previamente con enfermedades cardíacas, como el gen TEAD4. Y cuando los investigadores extrajeron TEAD4 de los cardiomiocitos en el laboratorio, las células ya no pudieron latir tan vigorosamente como las células sanas.
Por lo tanto, Geneformer había utilizado el aprendizaje por transferencia para llegar a una nueva conclusión: aunque no había recibido información sobre las células que carecían de TEAD4, predijo correctamente el importante papel que desempeña TEAD4 en la función de los cardiomiocitos.
Finalmente, el grupo pidió a Geneformer que predijera qué genes deberían ser el objetivo para hacer que los cardiomiocitos enfermos parecieran células sanas a nivel de la red de genes. Cuando los investigadores probaron dos de los objetivos propuestos en células con cardiomiopatía (una enfermedad del músculo cardíaco), encontraron que la eliminación de los genes predichos utilizando la tecnología de edición de genes CRISPR restauró la capacidad de latido de los cardiomiocitos enfermos.
«Al aprender cómo se ve una red de genes normales y cómo se ve una red de genes enfermos, Geneformer pudo determinar qué características se pueden abordar para cambiar entre estados sanos y enfermos», dice Theodoris. «El enfoque de transferencia de aprendizaje nos permitió superar el desafío de los datos limitados de los pacientes para identificar de manera eficiente las posibles proteínas a las que atacar con medicamentos en las células enfermas».
“Uno de los beneficios de usar Geneformer fue la capacidad de predecir qué genes podrían ayudar a cambiar las células entre estados sanos y enfermos”, dice Ellinor. «Pudimos validar estas predicciones en cardiomiocitos en nuestro laboratorio en el Instituto Broad».
Los investigadores planean aumentar la cantidad y los tipos de células que Geneformer ha analizado para continuar desarrollando su capacidad para analizar redes de genes. También hicieron que el modelo fuera de código abierto para que otros científicos pudieran usarlo.
“Con los enfoques estándar, debe volver a entrenar un modelo desde cero para cada nueva aplicación”, dice Theodoris. «Lo que es realmente emocionante de nuestro enfoque es que el conocimiento fundamental de las redes de genes de Geneformer ahora se puede transferir para responder muchas preguntas biológicas, y esperamos ver qué harán otros con él».