You are here

    • You are here:
    • Home > Research > CRG scientists debut genomics AI research at NeurIPS in San Diego

CRG scientists debut genomics AI research at NeurIPS in San Diego

NewsNEWS

10
Dec
Thu, 10/12/2026 - 00:00

CRG scientists debut genomics AI research at NeurIPS in San Diego

A member of the research team presenting the poster

Researchers from the Centre for Genomic Regulation have presented their work at NeurIPS, the world’s most influential conference on artificial intelligence and machine learning, marking the first time the institute has had research represented at this global forum.

The event, held annually, brings together tens of thousands of researchers and practitioners working on the foundations and applications of artificial intelligence.

NeurIPS plays a central role in shaping the future direction of AI research and innovation. It hosts exhibitions and demonstrations from major technology companies including NVIDIA, Google and Microsoft. This year, the CRG was the only research institute from Spain with work presented at the conference.

Many of the papers presented at NeurIPS are foundational. The most well-known example is the landmark paper Attention Is All You Need, published at a sister conference in 2017. The theoretical basis laid by the paper led to advances which helped AI models generate coherent outputs rather than fragmented responses.

The technology now underpins many of today’s large language models, including systems such as ChatGPT, as well as breakthroughs in scientific AI such as AlphaFold for protein structure prediction and modern protein and genome language models.

At the CRG, Dr. Mafalda Dias and Dr. Jonathan Frazer co-lead a deep-learning research group that focuses on applying artificial intelligence methods to genomics data. Their team develops tools that can predict how genetic variation influences disease risk and molecular function. 

The group aims to improve how genetic information is interpreted in clinical settings, support the design of new proteins and medicines, and ultimately increase the diagnostic value of patient sequencing.

The research group travelled to NeurIPS in San Diego to present a study on a central question in modern genomics: how to predict whether a genetic mutation is harmless or whether it disrupts protein function and contributes to disease.

Protein language models, the AI systems trained on vast collections of DNA and protein sequences, are widely used for this task. By learning which sequences are common in nature, they can estimate the likely impact of genetic changes. However, recent studies have shown that as these models grow larger and more powerful, their biological predictions can stagnate or even decline.

Dias and Frazer addressed this limitation by developing a new method called “Likelihood-Fitness Bridging”. Instead of evaluating a mutation in isolation, the approach compares how the same change behaves across multiple related sequences shaped by similar evolutionary pressures. This helps separate meaningful biological signals from noise caused by evolutionary history or biases in the available data.

When applied to some of the world’s most advanced protein and genome AI models, the method consistently improved their ability to distinguish between benign genetic variants and those linked to disease, without requiring the models to be retrained.

That can help avoid the need to retrain enormous AI systems from scratch, a process that can require weeks of computing time and large amounts of electricity. This makes the approach not only cost-effective but also comparatively environmentally friendly.

EN CASTELLANO

El CRG presenta por primera vez en la conferencia NeurIPS  

Un equipo del Centro de Regulación Genómica ha presentado su línea de investigación sobre IA y genómica en NeurIPS, la conferencia más influyente del mundo sobre inteligencia artificial y aprendizaje automático. Esta es la primera vez que una investigación del instituto se presenta en este foro global.

El evento, que se celebra anualmente, reúne a decenas de miles de investigadores y profesionales que trabajan sobre los fundamentos y aplicaciones de la inteligencia artificial.

NeurIPS desempeña un papel central en la configuración y el futuro de la investigación e innovación en IA. Acoge exhibiciones y demostraciones de importantes empresas tecnológicas como NVIDIA, Google y Microsoft. Este año, el CRG fue el único instituto de investigación de España que presentó su trabajo en la conferencia.

Muchos de los artículos presentados en NeurIPS son fundamentales. El ejemplo más conocido es el relevante artículo titulado Attention Is All You Need, publicado en la conferencia en 2017. La base teórica establecida por este trabajo condujo a avances que ayudaron a los modelos de IA a generar resultados coherentes en lugar de respuestas fragmentadas.

Esa misma tecnología ahora sustenta muchos de los grandes modelos de lenguaje actuales, incluidos sistemas como ChatGPT, así como avances en IA científica como AlphaFold para la predicción de la estructura de proteínas y modelos modernos de lenguaje de proteínas y genomas.

En el CRG, la Dra. Mafalda Dias y el Dr. Jonathan Frazer co-dirigen un grupo de investigación en aprendizaje profundo que se centra en aplicar métodos de inteligencia artificial a datos genómicos. Su equipo desarrolla herramientas que pueden predecir cómo la variación genética influye en el riesgo de enfermedad y en la función molecular. 

El grupo pretende mejorar la interpretación de la información genética en entornos clínicos, apoyar el diseño de nuevas proteínas y medicamentos, y, en última instancia, aumentar el valor diagnóstico de la secuenciación de pacientes.

El grupo de investigación viajó a NeurIPS en San Diego para presentar un estudio sobre una cuestión central en la genómica moderna: cómo predecir si una mutación genética es inofensiva o si interrumpe la función de las proteínas y contribuye a la enfermedad.

Los modelos de lenguaje de proteínas, los sistemas de IA entrenados con vastas colecciones de secuencias de ADN y proteínas, se utilizan con esta finalidad. Al aprender qué secuencias son comunes en la naturaleza, pueden estimar el impacto probable de los cambios genéticos. Sin embargo, estudios recientes han demostrado que, a medida que estos modelos crecen y son más potentes, sus predicciones biológicas pueden estancarse o incluso disminuir.

Dias y Frazer abordaron esta limitación desarrollando un nuevo método llamado "Puente de Probabilidad y Aptitud". En lugar de evaluar una mutación de forma aislada, el enfoque compara cómo se comporta el mismo cambio a lo largo de múltiples secuencias relacionadas modeladas por presiones evolutivas similares. Esto ayuda a separar señales biológicas significativas del ruido causado por la historia evolutiva o sesgos en los datos disponibles.

Cuando se aplicó a algunos de los modelos de IA de proteínas y genomas más avanzados del mundo, el método mejoró consistentemente su capacidad para distinguir entre variantes genéticas benignas y aquellas vinculadas a enfermedades, sin requerir que se tuviera que volver a entrenar los modelos.

Eso puede ayudar a evitar la necesidad de reentrenar enormes sistemas de IA desde cero, un proceso que puede requerir semanas de tiempo de cálculo y grandes cantidades de electricidad. Esto hace que el enfoque no solo sea rentable, sino también sostenible.  

EN CATALÀ

El CRG presenta per primera vegada a la conferència NeurIPS  

Un equip del Centre de Regulació Genòmica ha presentat la seva línia de recerca sobre IA i genòmica a NeurIPS, la conferència més influent del món sobre intel·ligència artificial i aprenentatge automàtic. Aquesta és la primera vegada que una investigació de l'institut es presenta en aquest fòrum global.

L'esdeveniment, que se celebra anualment, reuneix desenes de milers d'investigadors i professionals que treballen sobre els fonaments i aplicacions de la intel·ligència artificial.

NeurIPS exerceix un paper central en la configuració i el futur de la recerca i innovació en IA. Acull exhibicions i demostracions d'importants empreses tecnològiques com NVIDIA, Google i Microsoft. Enguany, el CRG va ser l'únic institut de recerca d'Espanya que va presentar el seu treball a la conferència.

Molts dels articles presentats a NeurIPS són fonamentals. L'exemple més conegut és el rellevant article titulat Attention Is All You Need, publicat a la conferència el 2017. La base teòrica establerta per aquest treball va conduir avenços que van ajudar els models d'IA a generar resultats coherents en lloc de respostes fragmentades.

Aquesta mateixa tecnologia ara sustenta molts dels grans models de llenguatge actuals, inclosos sistemes com ChatGPT, així com avenços en IA científica com AlphaFold per a la predicció de l'estructura de proteïnes i models moderns de llenguatge de proteïnes i genomes.

Al CRG, la Dra. Mafalda Dias i el Dr. Jonathan Frazer co-dirigeixen un grup de recerca en aprenentatge profund que se centra a aplicar mètodes d'intel·ligència artificial a dades genòmiques. El seu equip desenvolupa eines que poden predir com la variació genètica influeix en el risc de malaltia i en la funció molecular.

El grup pretén millorar la interpretació de la informació genètica en entorns clínics, donar suport al disseny de noves proteïnes i medicaments, i, en última instància, augmentar el valor diagnòstic de la seqüenciació de pacients.

El grup de recerca va viatjar a NeurIPS a San Diego per presentar un estudi sobre una qüestió central en la genòmica moderna: com predir si una mutació genètica és inofensiva o si interromp la funció de les proteïnes i contribueix a la malaltia.

Els models de llenguatge de proteïnes, els sistemes d'IA entrenats amb vastes col·leccions de seqüències d'ADN i proteïnes, s'utilitzen amb aquesta finalitat. En aprendre quines seqüències són comunes en la natura, poden estimar l'impacte probable dels canvis genètics. No obstant això, estudis recents han demostrat que, a mesura que aquests models creixen i són més potents, les seves prediccions biològiques poden estancar-se o fins i tot disminuir.

Dias i Frazer van abordar aquesta limitació desenvolupant un nou mètode anomenat "Pont de Probabilitat i Aptitud". En lloc d'avaluar una mutació de forma aïllada, l'enfocament compara com es comporta el mateix canvi al llarg de múltiples seqüències relacionades modelades per pressions evolutives similars. Això ajuda a separar senyals biològics significatius del soroll causat per la història evolutiva o biaixos en les dades disponibles.

Quan es va aplicar a alguns dels models d'IA de proteïnes i genomes més avançats del món, el mètode va millorar consistentment la seva capacitat per distingir entre variants genètiques benignes i aquelles vinculades a malalties, sense requerir que els models haguessin de tornar-se a entrenar.

Això pot ajudar a evitar la necessitat de tornar a entrenar enormes sistemes d'IA des de zero, un procés que pot requerir setmanes de temps de càlcul i grans quantitats d'electricitat. Això fa que l'enfocament no només sigui rendible, sinó també sostenible.