You are here

    • You are here:
    • Home > Research > AI-designed DNA controls genes in healthy mammalian cells for first time

AI-designed DNA controls genes in healthy mammalian cells for first time

NewsNEWS

08
May
Thu, 08/05/2025 - 17:00

AI-designed DNA controls genes in healthy mammalian cells for first time

A study published today in the journal Cell marks the first reported instance of generative AI designing synthetic molecules that can successfully control gene expression in healthy mammalian cells. Researchers at the Centre for Genomic Regulation (CRG) created an AI tool which dreams up DNA regulatory sequences not seen before in nature. The model can be told to create synthetic fragments of DNA with custom criteria, for example: ‘switch this gene on in stem cells which will turn into red-blood-cells but not platelets.’

The model then predicts which combination of DNA letters (A, T, C, G) are needed for the gene expression patterns required in specific types of cells. Researchers can then chemically synthesise the roughly 250-letter DNA fragments and add them to a virus for delivery into cells.

As a proof-of-concept, the authors of the study asked the AI to design synthetic fragments which activate a gene coding for a fluorescent protein in some cells while leaving gene expression patterns unaltered. They created the fragments from scratch and dropped them into mouse blood cells, where the sequence fused with the genome at random locations. The experiments worked exactly as predicted.

“The potential applications are vast. It’s like writing software but for biology, giving us new ways of giving instructions to a cell and guiding how they develop and behave with unprecedented accuracy,” says Dr. Robert Frömel, first author of the study who carried out the work at the Centre for Genomic Regulation (CRG) in Barcelona.

The study could lead to new ways for gene-therapy developers to boost or dampen the activity of genes only in the cells or tissues that need adjusting. It also paves the way for new strategies to fine-tune a patient’s genes and make treatments more effective and reduce side effects.

The work marks an important milestone in in the field of generative biology. To date, advances in the field have largely benefited protein design, helping scientists create entirely new enzymes and antibodies faster than ever before. However, many human diseases stem from faulty gene expression that is cell-type specific, for which there might never be a perfect protein drug candidate.

Gene expression is controlled by regulatory elements like enhancers, tiny fragments of DNA which switch genes on or off. To fix faulty gene expression, researchers can comb through genomes looking for naturally-existing enhancers that happen to suit their needs, limiting themselves to the sequences evolution has produced.

AI-generated enhancers can help engineer ultra-selective switches that nature has not yet invented. They can be designed to have exactly the on/off patterns required in specific types of cells, a level of fine-tuning which is crucial for creating therapies that avoid unintended effects in healthy cells.

However, the development of AI models requires lots of high-quality data, which has been historically lacking for enhancers. “To create a language model for biology, you have to understand the language cells speak. We set out to decipher these grammar rules for enhancers so that we can create entirely new words and sentences,” explains Dr. Lars Velten, corresponding author of the study and researcher at the Centre for Genomic Regulation (CRG).

The authors of the study created huge volumes of biological data to build their AI model by carrying out thousands of experiments with lab models of blood formation. They studied both enhancers and transcription factors, proteins also involved in controlling gene expression.

Until now, scientists studying enhancers and transcription factors typically used cancer cell lines because they are easier to work with. The researchers worked with healthy cells instead because it’s more representative of human biology. Their work helped uncover subtle mechanisms that shape our immune system and blood cell production.

Over five years, the team synthesised more than 64,000 synthetic enhancers, each carefully designed to test different arrangements and strengths of binding sites for 38 different transcription factors. It’s the largest library of synthetic enhancers ever built in blood cells to date.

Once inserted into the cells, the team tracked exactly how active each synthetic enhancer became across seven stages of blood-cell development. They discovered that while many enhancers activate genes in one type of cell, they repress genes in another.

Most enhancers worked like a volume dial, turning gene activity up or down. Surprisingly, certain combinations acted like on/off switches. The scientists call this “negative synergy,” meaning two factors that usually turn a gene on individually could effectively shut that gene down when they occur together.

The data from the experiments was crucial in setting out the design principles of the machine learning model. Once the model had enough measurements of how each synthetic enhancer changed gene activity in real cells, it could predict new designs that yield on/off outcomes, even if these enhancers had never existed in nature.

The study was designed to determine if a technology can work in practice before committing to larger-scale research. The researchers have only scratched the surface. Both humans and mice have an estimated 1,600 transcription factors regulating their genomes.

The work was carried out by Lars Velten, Robert Frömel, Julia Rühle, Aina Bernal Martínez, Chelsea Szu-Tu and Felix Pacheco Pastor, all members of Lars Velten’s research group at the Centre for Genomic Regulation. Rosa Martinez Corral from the Barcelona Collaboratorium, a joint initiative between the CRG and EMBL-Barcelona, also took part. The research was funded by an ERC Starting Grant from the European Union and a grant of the Spanish National Agency for Research.

EN CASTELLANO

Por primera vez un ADN diseñado por IA logra controlar genes en células de mamífero

Un estudio publicado en la revista Cell describe una nueva estrategia para activar o desactivar genes en tipos celulares con gran precisión. Se trata del primer caso de biología generativa para regular el genoma de células de mamífero sanas.
Barcelona, jueves 8 de mayo de 2025. Un estudio publicado hoy en la revista Cell se convierte en el primer caso que describe una inteligencia artificial (IA) que diseña moléculas sintéticas capaces de controlar la expresión génica en las células de mamíferos sanas.

Un equipo del Centro de Regulación Genómica (CRG) ha creado una herramienta de IA que diseña secuencias reguladoras de ADN nunca antes vistas en la naturaleza. Se puede pedir al modelo que cree fragmentos sintéticos de ADN con criterios personalizados como, por ejemplo: "activa este gen en las células madre que se convertirán en glóbulos rojos, pero no en plaquetas".

A continuación, el modelo predice qué combinación de letras de ADN (A, T, C, G) son necesarias para los patrones de expresión génica deseados en tipos específicos de células. Así, los/as investigadores/as pueden usar esta información para sintetizar químicamente los fragmentos de ADN de aproximadamente 250 letras y agregarlos a un virus para que lo entregue en el interior de las células.

Como prueba de concepto, los/as autores/as del estudio pidieron a la IA que diseñara fragmentos sintéticos que activaran un gen que codifica una proteína fluorescente en algunas células, dejando los patrones de expresión génica inalterados en otros tipos. Crearon los fragmentos desde cero y los insertaron en células sanguíneas de ratón, donde el ADN sintético se fusionó con el genoma en lugares aleatorios. Los experimentos funcionaron exactamente como se predijo.

"Las aplicaciones potenciales son enormes. Es como escribir software, pero para la biología. Nos proporciona nuevas formas de dar instrucciones a una célula y guiar la forma en que se desarrollan y se comportan con una precisión sin precedentes", afirma el Dr. Robert Frömel, primer autor del estudio que llevó a cabo el trabajo en el Centro de Regulación Genómica (CRG).

El estudio podría ayudar a desarrollar nuevas terapias génicas que aumenten o reduzcan la actividad de los genes en los tipos celulares o tejidos donde sea necesario. También allana el camino a nuevas estrategias para ajustar los genes de un paciente y hacer que los tratamientos sean más efectivos y reducir los efectos secundarios.

El estudio marca un hito en el campo de la biología generativa. Hasta la fecha, los avances en este campo han sido más beneficiosos para el diseño de proteínas, han ayudado a crear enzimas y anticuerpos completamente nuevos y más rápido que nunca. Sin embargo, muchas enfermedades humanas se derivan de una expresión génica defectuosa que es específica del tipo de célula, para la cual es posible que nunca exista la proteína perfecta para un potencial fármaco.

La expresión génica está controlada por elementos reguladores como los potenciadores, pequeños fragmentos de ADN que activan o desactivan genes. Para corregir la expresión génica defectuosa, los investigadores buscan potenciadores que ya existan naturalmente en el genoma y que puedan ajustarse a sus necesidades, y esto se limita a las secuencias que ha producido la evolución.

La IA puede ayudar a diseñar potenciadores ultraselectivos que la naturaleza aún no ha inventado. Los potenciadores hechos a medida pueden tener exactamente los patrones de encendido/apagado requeridos en tipos específicos de células, un nivel de control que es crucial para crear terapias que eviten efectos no deseados en células sanas.

Sin embargo, el desarrollo de modelos de IA requiere una gran cantidad de datos de alta calidad, que históricamente han escaseado en el caso de los potenciadores. "Para crear un modelo de lenguaje para la biología, hay que entender el lenguaje que hablan las células. Nos propusimos descifrar estas reglas de gramática para los potenciadores y así poder crear palabras y frases completamente nuevas", explica el Dr. Lars Velten, autor principal del estudio e investigador del Centro de Regulación Genómica (CRG).

Los autores del estudio crearon enormes volúmenes de datos biológicos para construir su modelo de IA mediante la realización de miles de experimentos con modelos de laboratorio de formación de sangre humana. Estudiaron tanto los potenciadores como los factores de transcripción, proteínas que también intervienen en el control de la expresión génica.

Hasta ahora, los potenciadores y los factores de transcripción se han estudiado utilizando líneas celulares de cáncer porque resulta más fácil trabajar con ellas. En cambio, los autores del estudio estudiaron células sanas porque es más representativo de la biología humana. Su trabajo ayudó a descubrir mecanismos sutiles que dan forma a nuestro sistema inmunológico y a la producción de células sanguíneas.

Durante cinco años, el equipo diseñó más de 64.000 potenciadores sintéticos, cada uno meticulosamente construido para probar su interacción con los sitios de unión para 38 factores de transcripción diferentes. Es la biblioteca más grande de potenciadores sintéticos jamás construida en células sanguíneas hasta la fecha.

Una vez insertados en las células, el equipo midió la actividad de cada potenciador sintético en siete etapas del desarrollo de las células sanguíneas. Descubrieron que muchos potenciadores activan genes en un tipo de célula, pero reprimen la actividad de genes en otra.

La mayoría de los potenciadores funcionan como el volumen de una radio, aumentando o disminuyendo la actividad de los genes. Sorprendentemente, ciertas combinaciones actúan como interruptores de encendido/apagado. Los autores del estudio lo denominan "sinergia negativa".

Los datos de los experimentos fueron cruciales para establecer los principios de diseño del modelo de aprendizaje automático. Una vez que el modelo tuvo suficientes mediciones sobre cómo cada potenciador sintético cambiaba la actividad génica en células reales, pudo predecir nuevos diseños que produjeron resultados de encendido o apagado, incluso si estos potenciadores nunca habían existido en la naturaleza.

El estudio fue diseñado como un proyecto piloto para determinar si la tecnología funcionaría antes de iniciar una investigación a mayor escala. Esto es solo la punta del iceberg. Se estima que tanto los humanos como los ratones tienen aproximadamente 1.600 factores de transcripción para regular sus genomas.

El trabajo ha sido llevado a cabo por parte de Lars Velten, Robert Frömel, Julia Rühle, Aina Bernal Martinez, Chelsea Szu-Tu y Félix Pacheco Pastor, miembros del grupo de investigación de Lars Velten en el Centro de Regulación Genómica. También ha participado Rosa Martínez Corral del Barcelona Collaboratorium, una iniciativa conjunta entre el CRG y el EMBL-Barcelona. La investigación ha sido financiada por una ERC Starting Grant de la Unión Europea y la financiación de la Agencia Estatal de Investigación (AEI) española.

EN CATALÀ

Molècules sintètiques d'ADN dissenyades per IA aconsegueixen regular el genoma de cèl·lules de mamífer

Un estudi publicat avui a la revista Cell es converteix en el primer cas que descriu una intel·ligència artificial (IA) que dissenya molècules sintètiques capaces de controlar l'expressió gènica en les cèl·lules de mamífers sanes.

Un equip del Centre de Regulació Genòmica (CRG) ha creat una eina d'IA que dissenya seqüències reguladores d'ADN mai vistes abans a la natura. Es pot demanar al model que creï fragments sintètics d'ADN amb criteris personalitzats com, per exemple: "activa aquest gen en les cèl·lules mare que es convertiran en glòbuls vermells, però no en plaquetes".

A continuació, el model prediu quina combinació de lletres d'ADN (A, T, C, G) són necessàries per als patrons d'expressió gènica desitjats en tipus específics de cèl·lules. Així, els/les investigadors/es poden fer servir aquesta informació per sintetitzar químicament els fragments d'ADN d'aproximadament 250 lletres i agregar-los a un virus perquè el lliuri a l'interior de les cèl·lules.

Com a prova de concepte, els/les  autors/es de l'estudi van demanar a la IA que dissenyés fragments sintètics que activessin un gen que codifica una proteïna fluorescent en algunes cèl·lules, deixant els patrons d'expressió gènica inalterats en altres tipus. Van crear els fragments des de zero i els van inserir en cèl·lules sanguínies de ratolí, on l'ADN sintètic es va fusionar amb el genoma en llocs aleatoris. Els experiments van funcionar exactament com es va predir.

"Les aplicacions potencials són enormes. És com escriure programari, però per a la biologia. Ens proporciona noves formes de donar instruccions a una cèl·lula i guiar la forma en què es desenvolupen i es comporten amb una precisió sense precedents", afirma el Dr. Robert Frömel, primer autor de l'estudi que va dur a terme el treball al Centre de Regulació Genòmica (CRG).

L'estudi podria ajudar a desenvolupar noves teràpies gèniques que augmentin o redueixin l'activitat dels gens en els tipus cel·lulars o teixits on sigui necessari. També aplana el camí a noves estratègies per ajustar els gens d'un pacient i fer que els tractaments siguin més efectius i reduir els efectes secundaris.

L'estudi marca una fita en el camp de la biologia generativa. Fins ara, els avenços en aquest camp han estat més beneficiosos per al disseny de proteïnes, han ajudat a crear enzims i anticossos completament nous i més ràpid que mai. Tanmateix, moltes malalties humanes es deriven d'una expressió gènica defectuosa que és específica del tipus de cèl·lula, per a la qual és possible que mai existeixi la proteïna perfecta per a un potencial fàrmac.

L'expressió gènica està controlada per elements reguladors com els potenciadors, petits fragments d'ADN que activen o desactiven gens. Per corregir l'expressió gènica defectuosa, els investigadors busquen potenciadors que ja existeixin naturalment en el genoma i que puguin ajustar-se a les seves necessitats, i això es limita a les seqüències que ha produït l'evolució.

La IA pot ajudar a dissenyar potenciadors ultraselectius que la natura encara no ha inventat. Els potenciadors fets a mida poden tenir exactament els patrons d'encesa/apagat requerits en tipus específics de cèl·lules, un nivell de control que és crucial per crear teràpies que evitin efectes no desitjats en cèl·lules sanes.

Tanmateix, el desenvolupament de models d'IA requereix una gran quantitat de dades d'alta qualitat, que històricament han escassejat en el cas dels potenciadors. "Per crear un model de llenguatge per a la biologia, cal entendre el llenguatge que parlen les cèl·lules. Ens vam proposar desxifrar aquestes regles de gramàtica per als potenciadors i així poder crear paraules i frases completament noves", explica el Dr. Lars Velten, autor principal de l'estudi i investigador del Centre de Regulació Genòmica (CRG).

Els autors de l'estudi van crear enormes volums de dades biològiques per construir el seu model d'IA mitjançant la realització de milers d'experiments amb models de laboratori de formació de sang humana. Van estudiar tant els potenciadors com els factors de transcripció, proteïnes que també intervenen en el control de l'expressió gènica.

Fins ara, els potenciadors i els factors de transcripció s'han estudiat utilitzant línies cel·lulars de càncer perquè resulta més fàcil treballar-hi. En canvi, els autors de l'estudi van estudiar cèl·lules sanes perquè és més representatiu de la biologia humana. El seu treball va ajudar a descobrir mecanismes subtils que donen forma al nostre sistema immunològic i a la producció de cèl·lules sanguínies.

Durant cinc anys, l'equip va dissenyar més de 64.000 potenciadors sintètics, cadascun meticulosament construït per provar la seva interacció amb els llocs d'unió per a 38 factors de transcripció diferents. És la biblioteca més gran de potenciadors sintètics mai construïda en cèl·lules sanguínies fins ara.

Una vegada inserits a les cèl·lules, l'equip va mesurar l'activitat de cada potenciador sintètic en set etapes del desenvolupament de les cèl·lules sanguínies. Van descobrir que molts potenciadors activen gens en un tipus de cèl·lula, però reprimeixen l'activitat de gens en una altra.

La majoria dels potenciadors funcionen com el volum d'una ràdio, augmentant o disminuint l'activitat dels gens. Sorprenentment, certes combinacions actuen com a interruptors d'encesa/apagat. Els autors de l'estudi ho anomenen "sinergia negativa": un fenomen que es produeix quan dos elements reguladors que de forma individual activen un gen, en canvi l'apaguen quan actuen junts.

Les dades dels experiments van ser crucials per establir els principis de disseny del model d'aprenentatge automàtic. Una vegada que el model va tenir prou mesuraments sobre la manera en què cada potenciador sintètic canviava l'activitat gènica en cèl·lules reals, va poder predir nous dissenys que produïren resultats d'encesa o apagada, fins i tot si aquests potenciadors mai havien existit a la natura.

L'estudi va ser dissenyat com un projecte pilot per determinar si la tecnologia funcionaria abans d'iniciar una investigació a més gran escala. Això és només la punta de l'iceberg. S'estima que tant els humans com els ratolins tenen aproximadament 1.600 factors de transcripció per als seus genomes.

El treball ha estat dut a terme per part de Lars Velten, Robert Frömel, Julia Rühle, Aina Bernal Martinez, Chelsea Szu-Tu i Félix Pacheco Pastor, membres del grup de recerca de Lars Velten al Centre de Regulació Genòmica. També hi ha participat Rosa Martínez Corral del Barcelona Collaboratorium, una iniciativa conjunta entre el CRG i l'EMBL-Barcelona. La investigació ha estat finançada per una ERC Starting Grant de la Unió Europea i un ajut de l'Agència Estatal de Recerca (AEI) espanyola.