You are here

    • You are here:
    • Home > Research > AI learns from the tree of life to support rare disease diagnosis

AI learns from the tree of life to support rare disease diagnosis

NewsNEWS

24
Nov
Mon, 24/11/2025 - 11:00

AI learns from the tree of life to support rare disease diagnosis

Mafalda Dias (left) and Jonathan Frazer (right), two of the three corresponding authors - alongside Debora Marks at Harvard Medical School - of the study published in Nature Genetics

Researchers have created an artificial intelligence model that can identify which mutations in human proteins are most likely to cause disease, even when those mutations have never been seen before in any person.

The model, called popEVE, was created using data from hundreds of thousands of different species and of genetic variation across the human population. The vast evolutionary record allows the tool to see which parts of every one of the roughly 20,000 human proteins are essential for life and which can tolerate change.

That allows popEVE to not only identify disease-causing mutations but also rank how severe they are across the body. The findings, published today in Nature Genetics by researchers at Harvard Medical School and the Centre for Genomic Regulation (CRG) in Barcelona, could transform how doctors diagnose genetic disease.

One in two people with a rare disease never receive a clear diagnosis. popEVE could change that by helping doctors focus on the most damaging variants first. Another benefit is that it can work with the patient’s genetic information alone. That has important implications for rare disease medicine in healthcare systems with limited resources, making diagnoses faster, simpler and cheaper than before.

“Clinics don’t always have access to parental DNA and many patients come alone. popEVE can help these doctors identify disease-causing mutations, and we’re already seeing this from collaborations with clinics,” says Dr. Mafalda Dias, co-corresponding author of the study and researcher at the Centre for Genomic Regulation.

Every individual’s genome contains many small differences which make them unique. This includes missense mutations, changes that alter one amino acid in a protein. Many are harmless, but some cause severe conditions or disorders. The challenge is working out which are benign and which are harmful.

However, not all harmful mutations are equally harmful. Some cause mild symptoms, others severe disability and some are fatal in childhood. Many AI tools exist to predict whether a mutation is dangerous or not but don’t offer a sliding scale of this behaviour.

For conditions “as rare as one”, there are no case histories to consult. Even if the world’s entire population were sequenced, these patients’ mutations would be completely new. Traditional methods that depend on spotting patterns across groups of patients or in large cohorts cannot help in these one-off cases. 

That’s why a team led by Debora Marks at Harvard Medical School and Jonathan Frazer and Mafalda Dias at the Centre for Genomic Regulation (CRG) turned to evolution instead.

Over billions of years, evolution on Earth has already run countless experiments, testing which changes a protein can tolerate and which are too damaging to survive. Computational models can learn which amino acid positions are critical for life by comparing protein sequences across many different species.

This was the idea behind EVE (Evolutionary model of Variant Effect), an algorithm released by the researchers back in 2021. It used evolutionary patterns to classify mutations in human disease genes as benign or harmful. EVE performed as well as, or better than, many lab-based experiments, and has since been used in clinical genetics to help interpret uncertain variants.

But while EVE could judge the impact of mutations within a gene, its scores weren’t directly comparable between genes. A variant that looked severe in one protein couldn’t be fairly compared with a variant in another. That’s a problem because doctors need to know which mutation in a patient’s genome is the most damaging.

The latest model in the EVE family, popEVE, solves that problem by combining evolutionary data with information from the UK Biobank and gnomAD, two vast repositories. These datasets show which variants are present in healthy people, helping the model calibrate its predictions for humans.

The result is the first model that can meaningfully rank mutations across the entire human proteome, the complete set of roughly 20,000 proteins encoded within the human genome. A mutation in gene A can now be compared directly with one in gene B on the same severity scale. That allows doctors, for the first time, to focus on the potentially most damaging variants first.

To validate popEVE, the researchers analysed genetic data from more than 31,000 families with children affected by severe developmental disorders. In 98% of cases where a causal mutation had already been identified, popEVE correctly ranked that variant as the most damaging in the child’s genome. It outperformed state-of-the art competitors like DeepMind’s AlphaMissense.

When the researchers looked for new candidate disease genes, popEVE uncovered 123 that had never been linked to developmental disorders before. Many are active in the developing brain and interact physically with known disease proteins. 104 of these were observed in just one or two patients.

One of popEVE’s strengths is that it avoids penalising people whose ancestry is underrepresented in genetic databases, which are predominantly biased towards people of European ancestry. This is a problem in other tools which flag possible disease-causing mutations simply because those variants hadn’t been seen before.

popEVE avoids this by treating all human variants equally. By asking whether a mutation has been seen before in humans, regardless of whether it’s once in a specific population or a thousand times in European populations, it predicted fewer false positives.

“No one should get a scary result just because their community isn’t well represented in global databases. popEVE helps fix that imbalance, something the field has been missing for a long time,” says Dr. Jonathan Frazer, co-corresponding author of the study and researcher at the Centre for Genomic Regulation.

The authors of the study stress that popEVE only interprets DNA changes that alter proteins. Many other types of mutations exist, so it doesn’t over all types of genetic variation. It also doesn’t replace clinical judgement. Doctors must use medical histories and symptom analysis to aid diagnosis.

EN CASTELLANO

Nace la primera IA capaz de apoyar el diagnóstico de enfermedades ultra raras

Se ha creado un modelo de inteligencia artificial capaz de identificar qué mutaciones en proteínas humanas son más propensas a causar enfermedad, incluso cuando dichas mutaciones no se habían observado nunca en ninguna persona en todo el mundo.

El modelo, denominado popEVE, se desarrolló utilizando datos procedentes de cientos de miles de especies distintas y de la variación genética existente en la población humana. El amplio registro evolutivo permite que la herramienta identifique qué partes de cada una de las aproximadamente 20.000 proteínas humanas son esenciales para la vida y cuáles pueden tolerar cambios.

Esto permite que popEVE no solo identifique mutaciones causantes de enfermedad, sino que también clasifique su gravedad en todo el organismo. Los resultados, publicados hoy en Nature Genetics por investigadores de la Harvard Medical School y del Centro de Regulación Genómica (CRG) en Barcelona, podrían transformar la manera en que los médicos diagnostican enfermedades genéticas.

Una de cada dos personas con una enfermedad rara nunca recibe un diagnóstico claro. popEVE podría cambiar esta situación ayudando a los médicos a centrarse primero en las variantes más perjudiciales. Otro beneficio radica en que puede funcionar únicamente con la información genética del propio paciente. Esto tiene importantes implicaciones para la medicina de enfermedades raras en sistemas sanitarios con recursos limitados, al permitir que los diagnósticos sean más rápidos, sencillos y económicos que antes.

“En las consultas no siempre se dispone del ADN de los progenitores y muchos pacientes acuden solos. popEVE puede ayudar a estos médicos a identificar mutaciones causantes de enfermedad, y ya estamos observando este beneficio en nuestras colaboraciones con clínicas”, señala la Dra. Mafalda Dias, coautora principal del estudio e investigadora del CRG.

El genoma de cada persona contiene numerosas pequeñas diferencias que la hacen única. Entre ellas se encuentran las mutaciones de sentido erróneo, cambios que alteran un aminoácido en una proteína. Muchas son inocuas, pero otras provocan afecciones o trastornos graves. El reto consiste en determinar cuáles son benignas y cuáles resultan perjudiciales.

Sin embargo, no todas las mutaciones perjudiciales lo son en la misma medida. Algunas causan síntomas leves, otras provocan discapacidades graves y algunas son letales en la infancia. Existen múltiples herramientas de inteligencia artificial destinadas a predecir si una mutación es peligrosa, pero no suelen ofrecer una escala gradual de este comportamiento.

Para afecciones “tan raras como únicas”, no existen antecedentes clínicos a los que recurrir. Incluso si se secuenciara a toda la población mundial, las mutaciones de estos pacientes serían completamente nuevas. Los métodos tradicionales que dependen de detectar patrones en grupos de pacientes o en grandes cohortes no pueden ayudar en estos casos individuales.

Por ello, un equipo dirigido por Debora Marks en la Harvard Medical School y por Jonathan Frazer y Mafalda Dias en el Centro de Regulación Genómica (CRG) recurrió a la evolución.

A lo largo de miles de millones de años, la evolución en la Tierra ya ha llevado a cabo innumerables experimentos, poniendo a prueba qué cambios puede tolerar una proteína y cuáles son demasiado dañinos para permitir la supervivencia. Los modelos computacionales pueden aprender qué posiciones de los aminoácidos son críticas para la vida comparando secuencias de proteínas de muchas especies distintas.

Esta idea inspiró EVE (Evolutionary model of Variant Effect), un algoritmo presentado por los mismos autores del estudio en 2021. Utilizaba patrones evolutivos para clasificar mutaciones en genes humanos asociados a enfermedades como benignas o perjudiciales. EVE alcanzó un rendimiento igual o superior al de muchos experimentos de laboratorio y, desde entonces, se utiliza en genética clínica para ayudar a interpretar variantes de significado incierto.

Sin embargo, aunque EVE podía evaluar el impacto de las mutaciones dentro de un mismo gen, sus puntuaciones no eran directamente comparables entre genes. Una variante que parecía grave en una proteína no podía compararse de forma justa con otra en una proteína distinta. Esto representaba un problema porque en la medicina se necesita saber cuál es la mutación más dañina en el genoma de un paciente.

El modelo más reciente de la familia EVE, popEVE, resuelve este problema combinando datos evolutivos con información procedente del UK Biobank y de gnomAD, dos vastos repositorios de datos genéticos. Estos conjuntos muestran qué variantes están presentes en personas sanas, lo que permite calibrar sus predicciones específicas para los seres humanos.

El resultado es el primer modelo capaz de clasificar mutaciones de forma significativa en todo el proteoma humano, el conjunto completo de aproximadamente 20.000 proteínas codificadas en el genoma. Una mutación en el gen A puede compararse directamente con otra en el gen B en la misma escala de gravedad. Esto permite, por primera vez, que se pueda centrar en las variantes potencialmente más dañinas.

Para validar popEVE, se analizaron datos genéticos de más de 31.000 familias con hijos e hijas afectados por trastornos graves del desarrollo. En el 98% de los casos en los que ya se había identificado una mutación causal, popEVE clasificó correctamente esa variante como la más perjudicial del genoma del niño. Superó a competidores de vanguardia como AlphaMissense, desarrollado por DeepMind.

Cuando se buscaron nuevos genes candidatos asociados a enfermedades, popEVE identificó 123 que previamente nunca se habían vinculado a trastornos del desarrollo. Muchos están activos en el cerebro en desarrollo e interactúan físicamente con proteínas relacionadas con enfermedades. De estos, 104 se observaron en solo uno o dos pacientes.

Una de las fortalezas de popEVE es que evita penalizar a personas cuyos linajes están infrarrepresentados en las bases de datos genéticas, predominantemente sesgadas hacia poblaciones de ascendencia europea. Esto resulta problemático en otras herramientas que señalan posibles mutaciones causantes de enfermedad simplemente porque no se habían visto antes.

popEVE evita este problema tratando todas las variantes humanas por igual. Al preguntar si una mutación se ha observado antes en seres humanos, ya sea una vez en una población específica o mil veces en poblaciones europeas, se predijeron menos falsos positivos.

“Nadie debería recibir un resultado alarmante solo porque su comunidad no esté bien representada en las bases de datos globales. popEVE contribuye a corregir ese desequilibrio, algo que el campo llevaba mucho tiempo necesitando”, afirma el Dr. Jonathan Frazer, coautor corresponsal del estudio e investigador en el CRG.

Los autores del estudio subrayan que popEVE únicamente interpreta cambios en el ADN que alteran proteínas. Existen muchos otros tipos de mutaciones, por lo que no abarca toda la variación genética. Tampoco sustituye al criterio clínico: los médicos deben recurrir a historiales médicos y análisis de síntomas para orientar el diagnóstico.

EN CATALÀ

Neix la primera IA capaç de donar suport al diagnòstic de malalties ultra rares

S'ha creat un model d'intel·ligència artificial capaç d'identificar quines mutacions en proteïnes humanes són més propenses a causar malaltia, fins i tot quan aquestes mutacions no s'havien observat mai en cap persona a tot el món.

El model, anomenat popEVE, es va desenvolupar utilitzant dades procedents de centenars de milers d' espècies diferents i de la variació genètica existent en la població humana. L'ampli registre evolutiu permet que l'eina identifiqui quines parts de cadascuna de les aproximadament 20.000 proteïnes humanes són essencials per a la vida i quines poden tolerar canvis.

Això permet que popEVE no només identifiqui mutacions causants de malaltia, sinó que també classifiqui la seva gravetat en tot l'organisme. Els resultats, publicats avui a Nature Genetics per investigadors de la Harvard Medical School i del Centre de Regulació Genòmica (CRG) a Barcelona, podrien transformar la manera com els metges diagnostiquen malalties genètiques.

Una de cada dues persones amb una malaltia minoritària mai rep un diagnòstic clar. popEVE podria canviar aquesta situació ajudant els metges a centrar-se primer en les variants més perjudicials. Un altre benefici és que pot funcionar únicament amb la informació genètica del mateix pacient. Això té importants implicacions per a la medicina de malalties minoritàries en sistemes sanitaris amb recursos limitats, ja que permet que els diagnòstics siguin més ràpids, senzills i econòmics que abans. "En les consultes no sempre es disposa de l'ADN dels progenitors i molts pacients es presenten sols. popEVE pot ajudar aquests metges a identificar mutacions causants de malaltia, i ja n’estem observant els beneficis en les nostres col·laboracions amb hospitals", assenyala la Dra. Mafalda Dias.

El genoma de cada persona conté nombroses petites diferències que el fan únic. Entre elles es troben les mutacions de sentit erroni, canvis que alteren un aminoàcid en una proteïna. Moltes són innòcues, però d'altres provoquen afeccions o trastorns greus. El repte consisteix a determinar quines són benignes i quines resulten perjudicials.

No obstant això, no totes les mutacions perjudicials ho són en la mateixa mesura. Algunes causen símptomes lleus, d'altres provoquen discapacitats greus i algunes són letals en la infància. Hi ha múltiples eines d'intel·ligència artificial destinades a predir si una mutació és perillosa, però no solen oferir una escala gradual d'aquest comportament.

Per a afeccions que son úniques al mon, no existeixen antecedents clínics als quals recórrer. Encara que es seqüenciés tota la població mundial, les mutacions d'aquests pacients serien del tot noves. Els mètodes tradicionals que depenen de detectar patrons en grups de pacients o en grans cohorts no poden ajudar en aquests casos individuals.

Per això, un equip dirigit per Debora Marks a la Harvard Medical School i per Jonathan Frazer i Mafalda Dias al Centre de Regulació Genòmica (CRG) va recórrer a l'evolució.

Al llarg de milers de milions d'anys, l'evolució a la Terra ja ha dut a terme innombrables experiments, posant a prova quins canvis pot tolerar una proteïna i quins són massa nocius per permetre la supervivència. Els models computacionals poden aprendre quines posicions dels aminoàcids són crítiques per a la vida comparant seqüències de proteïnes de moltes espècies diferents.

Aquesta idea va inspirar EVE (Evolutionary model of Variant Effect), un algoritme presentat pels mateixos autors de l'estudi el 2021. Utilitzava patrons evolutius per classificar mutacions en gens humans associats a malalties benignes o perjudicials. EVE va assolir un rendiment igual o superior al de molts experiments de laboratori i, des d'aleshores, s'utilitza en genètica clínica per ajudar a interpretar variants de significat incert.

No obstant això, tot i que EVE podia avaluar l'impacte de les mutacions dins d'un mateix gen, les seves puntuacions no eren directament comparables entre gens. Una variant que semblava greu en una proteïna no podia comparar-se de forma justa amb una altra en una proteïna diferent. Això representa un problema perquè en la medicina es necessita saber quina és la mutació més nociva en el genoma d'un pacient.

El model més recent de la família EVE, popEVE, resol aquest problema combinant dades evolutives amb informació procedent de l'UK Biobank i de gnomAD, dos grans repositoris de dades genètiques. Aquests conjunts mostren quines variants són presents en persones sanes, la qual cosa permet calibrar les seves prediccions específiques per als éssers humans.

El resultat és el primer model capaç de classificar mutacions de forma significativa en tot el proteoma humà, el conjunt complet d'aproximadament 20.000 proteïnes codificades en el genoma. Una mutació en el gen A es pot comparar directament amb una altra en el gen B en la mateixa escala de gravetat. Això permet, per primera vegada, que es pugui centrar en les variants potencialment més nocives.

Per validar popEVE, es van analitzar dades genètiques de més de 31.000 famílies amb fills i filles afectats per trastorns greus del desenvolupament. En el 98% dels casos en què ja s'havia identificat una mutació causal, popEVE va classificar correctament aquesta variant com la més perjudicial del genoma del nen. Va superar competidors d'avantguarda com AlphaMissense, desenvolupat per DeepMind.

Quan es van buscar nous gens candidats associats a malalties, popEVE en va identificar 123 que prèviament mai s'havien vinculat a trastorns del desenvolupament. Molts estan actius en el cervell en desenvolupament i interactuen físicament amb proteïnes relacionades amb malalties. D'aquests, 104 es van observar en només un o dos pacients.

Una de les fortaleses de popEVE és que evita penalitzar les persones amb llinatges infrarepresentats en les bases de dades genètiques, sovint esbiaixades cap a poblacions d'ascendència europea. Això és problemàtic en altres eines que assenyalen possibles mutacions causants de malaltia simplement perquè no s'havien vist abans.

popEVE evita aquest problema tractant totes les variants humanes per igual. En preguntar si una mutació s'ha observat abans en éssers humans, ja sigui una vegada en una població específica o mil vegades en poblacions europees, es van predir menys falsos positius.

"Ningú hauria de rebre un resultat alarmant només perquè la seva comunitat no estigui ben representada en les bases de dades globals. popEVE contribueix a corregir aquest desequilibri, una cosa que el camp portava molt de temps necessitant", afirma el Dr. Jonathan Frazer, coautor principal de l'estudi i investigador al CRG.

Els autors de l'estudi subratllen que popEVE únicament interpreta canvis en l'ADN que alteren proteïnes. Hi ha molts altres tipus de mutacions, per la qual cosa no abasta tota la variació genètica. Tampoc substitueix el criteri clínic: els metges han de recórrer a historials mèdics i anàlisis de símptomes per orientar el diagnòstic.