You are here

    • You are here:
    • Home > Research > Human gene maps are biased towards European ancestries

Human gene maps are biased towards European ancestries

NewsNEWS

03
Dec
Wed, 03/12/2025 - 11:08

Human gene maps are biased towards European ancestries

The authors of the study pictured in the facilities that house MareNostrum 5, the supercomputer which made the study's data processing possible

Human gene maps contain major blind spots because they were built largely from the DNA sequences of people with European ancestry, according to a study published today in Nature Communications.

Researchers uncovered thousands of missing transcripts (the RNA molecules that carry a gene’s instructions) in people from populations in Africa, Asia and the Americas. Some of these may be products of entirely new genes that scientists have never seen before.

Some of these transcripts appear in genes already linked to conditions that differ between ancestries, including lupus, rheumatoid arthritis, asthma, and cholesterol-related traits.

The findings suggest that part of the reason some diseases occur more often, or behave differently, in certain populations may be because their genes produce different transcripts and potentially different proteins through processes such as splicing. These molecular variations have been effectively invisible in current gene maps, leaving potentially important insights into disease risk hidden from view.

“Gene maps are used by scientists every day, but we’ve been leaving out huge sections of the world’s population. This study shows, for the first time, how much we’ve been missing,” says first author Pau Clavell-Revelles of the Barcelona Supercomputing Center and Centre for Genomic Regulation.

The legacy of Eurocentric genetics

The first draft of the human genome, published in 2001, was a landmark scientific achievement, but it had limitations. The sequence alone did not reveal where the genes were, how many existed, or how a single gene could produce multiple versions of a protein through splicing, the process by which cells cut and stitch together genetic instructions.

To solve this, gene annotation maps were built. These are detailed catalogues showing the position of every human gene and the full set of RNA transcripts produced from them. Projects such as GENCODE turned the three billion letters of the genome into something interpretable, helping scientists understand which regions drive disease and how genetic differences between people might matter.

But these maps inherited a blind spot. Although any two humans are 99.9% genetically identical, the remaining fraction reflects our evolutionary history. Some groups have lived apart for tens of thousands of years and accumulated distinct variants shaped by environment, chance and geography. Those differences are real but not well documented.

The human genome reference, and many of the gene annotations built on top of it, were derived mostly from individuals of European ancestry. As a result, population-specific biology from Africa, Asia, Oceania and the Americas was never fully represented in gene maps.

That means much of what scientists know about how cells use genes is based on a narrow slice of humanity, leaving important transcripts and potential clues to disease effectively invisible.

“Most gene sequencing so far has come from European individuals, so the reference catalogues we rely on may be missing genes or transcripts that exist only in non-European populations,” says Dr. Roderic Guigó, senior co-author of the study and researcher at the Centre for Genomic Regulation in Barcelona, as well as professor at the Pompeu Fabra University.

“If a genetic variant falls in one of these missing genes, we assume it has no biological effect. In some cases, that assumption may simply be wrong,” he adds.

Long-read RNA sequencing uncovers hidden biology

To uncover what was missing from existing gene maps, the researchers focused on transcripts, the RNA molecules that show how genes are used inside human cells. They used long-read sequencing, a technology that can read entire RNA molecules from end to end. Earlier methods captured only tiny fragments, making transcript reconstruction extremely difficult and leading to ambiguous outcomes, one of the key reasons this question couldn’t be addressed until now.

The team analysed blood cells from 43 people across eight populations, including Yoruba (Nigeria), Luhya (Kenya), Mbuti (Congo), Han Chinese, Indian Telugu, Peruvians in Lima, Ashkenazi Jewish and Utah Europeans. These groups are also part of the 1000 Genomes Project, meaning their DNA is already well mapped, allowing the new RNA data to be compared directly.

The researchers identified 41,000 potential transcripts missing from the official GENCODE gene maps. Out of the transcripts coming from known protein-coding genes, 41% are predicted to encode different versions of existing proteins. In other words, the study revealed thousands of protein variants that had never been catalogued before.

One example is the gene SUB1, involved in essential cellular processes such as DNA repair. The researchers found that individuals of Peruvian ancestry produce a different transcript of SUB1. This altered RNA molecule changes the resulting protein made, yet it was absent from all existing gene annotations.

When the team grouped the data by ancestry, they found a clear pattern where non-European samples contained far more previously unseen transcripts than European ones. In total, the study found 2,267 population-specific transcripts, RNA molecules present in one population but absent from all others. For European groups, most of these were already known. For non-European groups, most were entirely new.

773 of the newly identified transcripts appear to come from previously unrecognised gene loci, suggesting they may be the products of gene regions that scientists did not know existed.

The team also tested whether using each person’s own DNA sequence as the reference could uncover even more missing transcripts. They found switching from the standard reference genome to personalised ones revealed hundreds of additional transcripts per individual, with the biggest gains in people of African ancestry.

While confirming existing biases in gene maps, this part of the study also shows how relying on a single, universal reference genome can mask biologically meaningful variation in how people’s genes are used.

Why the missing transcripts matter

To understand why these missing transcripts matter, the researchers next looked at something called allele-specific transcript usage. Each person carries two copies of most genes, one from each parent. Sometimes, these two copies produce different transcripts, and these differences can influence how the gene works.

However, these effects can only be detected if all the transcripts which actually exist are catalogued in the gene maps. If important transcripts are missing, the effects are invisible.

By adding the thousands of newly discovered transcripts to existing gene maps, the team were able to detect many more genetic effects that influence how genes behave, especially in people of non-European ancestry.

“We found that many novel ancestry-biased transcripts occur in genes already associated with autoimmune diseases, asthma and metabolic traits,” says Dr. Marta Melé, senior co-author of the study and Group Leader at the BSC.

Dr. Melé explains that this doesn’t mean the transcripts themselves cause the differences in disease but rather help scientists see genetic signals that were previously hidden. Without these transcripts in the reference maps, researchers would miss key information about why certain diseases are more common, or act differently, in some groups than others.

Towards a human ‘pantranscriptome’

The researchers emphasise their work is only a first step which has important limitations. The study looked at just one cell type taken from one tissue, and from only 43 individuals. Many parts of the world are not represented at all and none of the body’s most complex organs were examined.

Yet despite the narrow window of human biology explored, the team still found tens of thousands of transcripts that had slipped through the cracks of official gene maps. For Dr. Fairlie Reese, the small scope of the study and the size of what it uncovered is a striking outcome.

“We firmly believe that any findings that we made here are really just the tip of the iceberg,” says Dr. Reese, postdoctoral researcher at the BSC.

The authors of the study call for a rethink in how we build maps of human biology that truly reflect humanity. In recent years, large international efforts such as the Human Pangenome Project have begun to expand the reference genome, capturing far more of the DNA diversity found around the world.

However, DNA is only the instruction manual. To understand how those instructions are used the research community also need a human pantranscriptome: the complete catalogue of all RNA molecules used across all tissues, all life stages and all populations.

“The pangenome tells us about DNA diversity, essentially, it’s a book of instructions. The pantranscriptome tells us which words are important in each cell of our body. Both are essential for fully understanding human diversity,” says Dr. Melé.

Building such a resource is a mammoth task. The current study alone produced more than 10 terabytes of data and 800 million full-length RNA sequences, requiring advanced machine-learning tools and the power of the BSC’s MareNostrum 5 supercomputer. Scaling this up to hundreds of tissues and thousands of individuals would demand computational capacities and global coordination on an entirely different scale.

But the researchers say the ambition is worth it.

“We hope our study serves as a foundation and an invitation for the global scientific community to contribute data, methods, and diverse populations. Only through a collective effort will we achieve a truly complete and inclusive map of human biology, which is essential for fair and accurate genomic medicine,” concludes Dr. Melé.

EN CASTELLANO

Las ascendencias europeas sesgan los mapas genéticos humanos

Los mapas genéticos humanos contienen puntos ciegos porque se construyeron principalmente a partir de secuencias de ADN de personas con ascendencia europea, según un estudio publicado hoy en Nature Communications.

El estudio identificó miles de transcritos ausentes (las moléculas de ARN que transportan las instrucciones de un gen) en personas pertenecientes a poblaciones de África, Asia y América. Algunas de estas moléculas podrían ser productos de genes completamente nuevos, nunca antes descritos por la ciencia.

Algunos transcritos también aparecen en genes ya relacionados con enfermedades que difieren según las ascendencias, como el lupus, la artritis reumatoide, el asma y rasgos vinculados al colesterol.

Los resultados sugieren que parte del motivo por el que ciertas enfermedades son más frecuentes o se comportan de forma distinta en determinadas poblaciones podría ser que sus genes producen transcritos diferentes y, potencialmente, proteínas diferentes mediante procesos como el splicing. Estas variaciones moleculares han permanecido prácticamente invisibles en los mapas genéticos actuales, ocultando información potencialmente crucial para comprender el riesgo de enfermedad.

"Los mapas génicos se utilizan cada día en los laboratorios, pero estamos dejando fuera enormes segmentos de la población mundial. Este estudio muestra, por primera vez, cuánto nos estábamos perdiendo," afirma el primer autor Pau Clavell-Revelles, del Barcelona Supercomputing Center y el Centro de Regulación Genómica.

El legado de la genética eurocéntrica

El primer borrador del genoma humano, publicado en 2001, supuso un hito científico, a pesar de presentar limitaciones. La secuencia por sí sola no revelaba dónde se encontraban los genes, cuántos existían o cómo un mismo gen podía producir múltiples versiones de una proteína mediante splicing, el proceso por el que las células cortan y ensamblan las instrucciones genéticas.

Para resolverlo, se construyeron los mapas de anotación génica: catálogos detallados que muestran la posición de cada gen humano y el conjunto completo de transcritos de ARN que generan. Proyectos como GENCODE transformaron los tres mil millones de letras del genoma en un material interpretable, ayudando a la ciencia a identificar qué regiones están implicadas en enfermedades y cómo pueden afectar las diferencias genéticas entre personas.

Pero estos mapas heredaron un punto ciego. Aunque dos personas son genéticamente idénticas en un 99,9%, la fracción restante refleja la historia evolutiva humana. Algunos grupos han vivido aislados durante decenas de miles de años y han acumulado variantes distintas moldeadas por el entorno, el azar y la geografía. Estas diferencias son reales, pero no están bien documentadas.

El genoma humano de referencia, y muchas de las anotaciones construidas sobre ella, proceden principalmente de personas con ascendencia europea. En consecuencia, la biología específica de poblaciones de África, Asia, Oceanía y América nunca quedó plenamente representada en los mapas génicos.

Esto implica que gran parte del conocimiento sobre la forma en que las células utilizan los genes se basa en una muestra reducida de la humanidad, dejando transcritos importantes, y posibles claves sobre la enfermedad, fuera de nuestro alcance.

"La mayoría de la secuenciación genética realizada hasta ahora procede de personas europeas, de modo que los catálogos de referencia que utilizamos pueden carecer de genes o transcritos que existan únicamente en poblaciones no europeas", señala el Dr. Roderic Guigó, coautor principal del estudio e investigador del Centro de Regulación Genómica en Barcelona y profesor en la Universidad Pompeu Fabra.

"Si una variante genética cae en uno de estos genes ausentes, asumimos que no tiene ningún efecto biológico. En algunos casos, esa suposición podría ser sencillamente errónea", añade.

La secuenciación de ARN de lectura larga revela biología oculta

Para identificar qué faltaba en los mapas génicos existentes, los autores del estudio se centraron en los transcritos, las moléculas de ARN que muestran cómo se utilizan los genes en las células humanas. Emplearon la secuenciación de lectura larga, una tecnología capaz de leer moléculas completas de ARN de extremo a extremo. Métodos anteriores solo capturaban fragmentos pequeños, lo que dificultaba enormemente la reconstrucción de transcritos y generaba resultados ambiguos, una de las principales razones por las que esta pregunta no había podido abordarse hasta ahora.

El equipo analizó células sanguíneas de 43 personas pertenecientes a ocho poblaciones: Yoruba (Nigeria), Luhya (Kenia), Mbuti (Congo), chinos Han, indios Telugu, peruanos de Lima, judíos asquenazíes y europeos de Utah. Estos grupos forman parte del Proyecto 1000 Genomas, lo que implica que su ADN está bien caracterizado, y esto permite a su vez comparar directamente los nuevos datos de ARN.

Los investigadores identificaron 41.000 transcritos potenciales ausentes en los mapas oficiales de GENCODE. Entre los transcritos originados en genes codificadores de proteínas, se prevé que el 41% codifique versiones diferentes de proteínas ya conocidas. En otras palabras, el estudio reveló miles de variantes proteicas nunca catalogadas.

Un ejemplo es el gen SUB1, implicado en procesos celulares esenciales como la reparación del ADN. Se observó que las personas de ascendencia peruana producen un transcrito distinto de SUB1. Esta molécula de ARN alterada modifica la proteína resultante, aunque estaba ausente en todas las anotaciones génicas existentes.

Al agrupar los datos por ascendencia, se observó un patrón claro: las muestras no europeas contenían una proporción mucho mayor de transcritos nunca vistos que las europeas. En total, el estudio identificó 2.267 transcritos específicos de población, presentes en un solo grupo y ausentes en todos los demás. Para los grupos europeos, la mayoría ya se conocía; para los no europeos, la mayoría era completamente nueva.

De los nuevos transcritos identificados, 773 parecen proceder de regiones génicas no reconocidas previamente, lo que sugiere que podrían ser productos de genes cuya existencia no se había descrito.

El equipo también probó si la utilización de la secuencia del ADN de cada persona como referencia podía revelar incluso más transcritos ausentes. Se observó que sustituir el genoma de referencia estándar por genomas personalizados destapaba cientos de transcritos adicionales por persona, con los mayores incrementos en personas de ascendencia africana.

Si bien esta parte del estudio confirma los sesgos ya existentes en los mapas génicos, también demuestra que depender de una única referencia genómica universal puede ocultar variaciones biológicamente relevantes en el uso de los genes.

Por qué importan los transcritos ausentes

Para comprender la importancia de estos transcritos, el equipo analizó lo que se denomina el uso de transcritos específicos de alelos. Cada persona posee dos copias de la mayoría de los genes, una heredada de cada progenitor. En ocasiones, estas dos copias producen transcritos diferentes, y dichas diferencias pueden influir en el funcionamiento del gen.

Sin embargo, estos efectos solo pueden detectarse si todos los transcritos existentes están catalogados en los mapas génicos. Cuando faltan transcritos importantes, los efectos permanecen invisibles.

Tras añadir los miles de transcritos recién descubiertos a los mapas existentes, el equipo pudo detectar muchos más efectos genéticos que influyen en el comportamiento de los genes, especialmente en personas con ascendencia no europea.

"Observamos que muchos de los nuevos transcritos sesgados por ascendencia aparecen en genes ya asociados a enfermedades autoinmunes, asma y rasgos metabólicos", afirma la Dra. Marta Melé, coautora principal del estudio y jefa de grupo en el BSC.

La Dra. Melé explica que esto no implica que los transcritos sean la causa directa de las diferencias en una enfermedad, sino que permiten identificar señales genéticas que antes estaban ocultas. Sin estos transcritos en los mapas de referencia, se perdería información clave para comprender por qué ciertas enfermedades son más comunes, o actúan de forma diferente, en algunos grupos respecto a otros.

Hacia un "pantranscriptoma" humano

El equipo subraya que este trabajo es solo un primer paso con limitaciones importantes. El estudio analizó un único tipo celular de un solo tejido, y solo en 43 personas. Muchas regiones del mundo no están representadas y no se examinó ninguno de los órganos más complejos del cuerpo.

Aun así, pese a esta limitación, se identificaron decenas de miles de transcritos que habían pasado desapercibidos en los mapas génicos oficiales. Para la Dra. Fairlie Reese, la combinación entre la reducida escala del estudio y la magnitud de lo descubierto es un resultado sorprendente.

"Creemos firmemente que cualquier resultado obtenido aquí es solo la punta del iceberg", señala la Dra. Reese, investigadora posdoctoral en el BSC.

Los autores del estudio piden replantear cómo se construyen los mapas de la biología humana para que reflejen verdaderamente a la humanidad. En los últimos años, grandes iniciativas internacionales como el Human Pangenome Project han empezado a ampliar la referencia genómica, incorporando mucha más diversidad del ADN global.

Sin embargo, el ADN no es más que el manual de instrucciones. Para comprender cómo se utilizan dichas instrucciones, la comunidad científica necesita también un pantranscriptoma humano: el catálogo completo de todas las moléculas de ARN utilizadas en todos los tejidos, en todas las etapas de la vida y en todas las poblaciones.

"El pangenoma nos informa sobre la diversidad del ADN; es, esencialmente, un libro de instrucciones. El pantranscriptoma nos indica qué palabras son importantes en cada célula de nuestro cuerpo. Ambos son esenciales para comprender plenamente la diversidad humana", afirma la Dra. Melé.

Construir un recurso así es una tarea titánica. Solo este estudio generó más de 10 terabytes de datos y 800 millones de secuencias completas de ARN, lo que requirió herramientas avanzadas de aprendizaje automático y la capacidad del superordenador MareNostrum 5 del BSC. Escalar este trabajo a cientos de tejidos y miles de personas exigiría capacidades computacionales y una coordinación global de otra magnitud.

Pero los investigadores sostienen que esta ambición merece la pena.

"Esperamos que nuestro estudio sirva como base y como invitación a la comunidad científica global para aportar datos, métodos y poblaciones diversas. Solo mediante un esfuerzo colectivo lograremos un mapa verdaderamente completo e inclusivo de la biología humana, esencial para una medicina genómica justa y precisa", concluye la Dra. Melé.

EN CATALÀ

Las ascendencias europeas sesgan los mapas genéticos humanos

Els mapes genètics humans contenen punts cecs perquè es van construir principalment a partir de seqüències d'ADN de persones amb ascendència europea, segons un estudi publicat avui a Nature Communications.

L'estudi va identificar milers de transcrits absents (les molècules d'ARN que transporten les instruccions d'un gen) en persones pertanyents a poblacions d'Àfrica, Àsia i Amèrica. Algunes d'aquestes molècules podrien ser productes de gens completament nous, mai abans descrits per la ciència.

Alguns transcrits també apareixen en gens ja relacionats amb malalties que difereixen segons les ascendències, com el lupus, l'artritis reumatoide, l'asma i trets vinculats al colesterol.

Els resultats suggereixen que part del motiu pel qual certes malalties són més freqüents o es comporten de forma diferent en determinades poblacions podria ser que els seus gens produeixen transcrits diferents i, potencialment, proteïnes diferents mitjançant processos com l'splicing. Aquestes variacions moleculars s’han mantingut pràcticament invisibles en els mapes genètics actuals, ocultant informació potencialment crucial per comprendre el risc de malaltia.

"Els mapes gènics s'utilitzen cada dia als laboratoris, però estem deixant fora enormes segments de la població mundial. Aquest estudi mostra, per primera vegada, el que ens estàvem perdent," afirma el primer autor Pau Clavell-Revelles, del Barcelona Supercomputing Center i el Centre de Regulació Genòmica.

El llegat de la genètica eurocèntrica

El primer esborrany del genoma humà, publicat el 2001, va suposar una fita científica, tot i presentar limitacions. La seqüència per si sola no revelava on es trobaven els gens, quants existien o com un mateix gen podia produir múltiples versions d'una proteïna mitjançant l’splicing, el procés pel qual les cèl·lules tallen i assemblen les instruccions genètiques.

Per resoldre-ho, es van construir els mapes d'anotació gènica: catàlegs detallats que mostren la posició de cada gen humà i el conjunt complet de transcrits d'ARN que generen. Projectes com GENCODE van transformar els tres mil milions de lletres del genoma en un material interpretable, ajudant la ciència a identificar quines regions estan implicades en malalties i com poden afectar les diferències genètiques entre persones.

Però aquests mapes van heretar un punt cec. Tot i que dues persones són genèticament idèntiques en un 99,9%, la fracció restant reflecteix la història evolutiva humana. Alguns grups han viscut aïllats durant desenes de milers d'anys i han acumulat variants diferents modelades per l'entorn, l'atzar i la geografia. Aquestes diferències són reals, però no estan ben documentades.

El genoma humà de referència, i moltes de les anotacions construïdes sobre aquest genoma, procedeixen principalment de persones amb ascendència europea. En conseqüència, la biologia específica de poblacions d'Àfrica, Àsia, Oceania i Amèrica mai va quedar plenament representada en els mapes gènics.

Això implica que gran part del coneixement sobre la forma en què les cèl·lules utilitzen els gens es basa en una mostra reduïda de la humanitat, deixant transcrits importants, i possibles claus sobre la malaltia, fora del nostre abast.

"La majoria de la seqüenciació genètica realitzada fins ara procedeix de persones europees, de manera que els catàlegs de referència que utilitzem poden mancar de gens o transcrits que existeixin únicament en poblacions no europees", assenyala el Dr. Roderic Guigó, coautor principal de l'estudi i investigador del Centre de Regulació Genòmica a Barcelona i professor a la Universitat Pompeu Fabra.

"Si una variant genètica cau en un d'aquests gens absents, assumim que no té cap efecte biològic. En alguns casos, aquesta suposició podria ser senzillament errònia", afegeix.

La seqüenciació d'ARN de lectura llarga revela biologia oculta

Per identificar què faltava en els mapes gènics existents, els autors de l'estudi es van centrar en els transcrits, les molècules d'ARN que mostren com s'utilitzen els gens en les cèl·lules humanes. Van emprar la seqüenciació de lectura llarga, una tecnologia capaç de llegir molècules completes d'ARN d'extrem a extrem. Mètodes anteriors només capturaven fragments petits, cosa que dificultava enormement la reconstrucció de transcrits i generava resultats ambigus, una de les principals raons per les quals aquesta pregunta no havia pogut abordar-se fins ara.

L'equip va analitzar cèl·lules sanguínies de 43 persones pertanyents a vuit poblacions: Yoruba (Nigèria), Luhya (Kènia), Mbuti (Congo), xinesos Han, indis Telugu, peruans de Lima, jueus asquenazites i europeus de Utah. Aquests grups formen part del Projecte 1000 Genomes, fet que implica que el seu ADN està ben caracteritzat, i això permet alhora comparar directament les noves dades d'ARN.

Els investigadors van identificar 41.000 transcrits potencials absents en els mapes oficials de GENCODE. Entre els transcrits originats en gens codificadors de proteïnes, es preveu que el 41% codifiqui versions diferents de proteïnes ja conegudes. En altres paraules, l'estudi va revelar milers de variants proteiques mai catalogades.

Un exemple és el gen SUB1, implicat en processos cel·lulars essencials com la reparació de l'ADN. Es va observar que les persones d'ascendència peruana produeixen un transcrit diferent de SUB1. Aquesta molècula d'ARN alterada modifica la proteïna resultant, tot i que estava absent en totes les anotacions gèniques existents.

En agrupar les dades per ascendència, es va observar un patró clar: les mostres no europees contenien una proporció molt més gran de transcrits mai vistos que les europees. En total, l'estudi va identificar 2.267 transcrits específics de població, presents en un sol grup i absents en tots els altres. Per als grups europeus, la majoria ja es coneixia; per als no europeus, la majoria era completament nova.

Dels nous transcrits identificats, 773 semblen procedir de regions gèniques no reconegudes prèviament, cosa que suggereix que podrien ser productes de gens l'existència dels quals no s'havia descrit.

L'equip també va provar si la utilització de la seqüència de l'ADN de cada persona com a referència podia revelar fins i tot més transcrits absents. Es va observar que substituir el genoma de referència estàndard per genomes personalitzats destapava cents de transcrits addicionals per persona, amb els majors increments en persones d'ascendència africana.

Si bé aquesta part de l'estudi confirma els biaixos ja existents en els mapes gènics, també demostra que dependre d'una única referència genòmica universal pot ocultar variacions biològicament rellevants en l'ús dels gens.

Per què importen els transcrits absents

Per comprendre la importància d'aquests transcrits, l'equip va analitzar el que s'anomena l'ús de transcrits específics d'al·lels. Cada persona té dues còpies de la majoria dels gens, una heretada de cada progenitor. En ocasions, aquestes dues còpies produeixen transcrits diferents, i aquestes diferències poden influir en el funcionament del gen.

Tanmateix, aquests efectes només es poden detectar si tots els transcrits existents estan catalogats en els mapes gènics. Quan falten transcrits importants, els efectes romanen invisibles.

Després d'afegir els milers de transcrits acabats de descobrir als mapes existents, l'equip va poder detectar molts més efectes genètics que influeixen en el comportament dels gens, especialment en persones amb ascendència no europea.

"Observem que molts dels nous transcrits esbiaixats per ascendència apareixen en gens ja associats a malalties autoimmunes, asma i trets metabòlics", afirma la Dra. Marta Melé, coautora principal de l’estudi i cap de grup al BSC.

La Dra. Melé explica que això no implica que els transcrits siguin la causa directa de les diferències en una malaltia, sinó que permeten identificar senyals genètics que abans estaven ocults. Sense aquests transcrits en els mapes de referència, es perdria informació clau per comprendre per què certes malalties són més comunes, o actuen de forma diferent, en alguns grups respecte d'altres.

Cap a un "pantranscriptoma" humà

L'equip subratlla que aquest treball és només un primer pas amb limitacions importants. L'estudi va analitzar un únic tipus cel·lular d'un sol teixit, i només en 43 persones. Moltes regions del món no estan representades i no es va examinar cap dels òrgans més complexos del cos.

Tot i així, malgrat aquesta limitació, es van identificar desenes de milers de transcrits que havien passat desapercebuts en els mapes gènics oficials. Per a la Dra. Fairlie Reese, la combinació entre la reduïda escala de l'estudi i la magnitud de la descoberta és un resultat sorprenent.

"Creiem fermament que qualsevol resultat obtingut aquí és només la punta de l'iceberg", assenyala la Dra. Reese, investigadora postdoctoral al BSC.

Els autors de l'estudi demanen replantejar com es construeixen els mapes de la biologia humana perquè reflecteixin veritablement la humanitat. En els últims anys, grans iniciatives internacionals com el Human Pangenome Project han començat a ampliar la referència genòmica, incorporant molta més diversitat de l'ADN global.

No obstant això, l'ADN no és més que el manual d'instruccions. Per comprendre com s'utilitzen aquestes instruccions, la comunitat científica necessita també un pantranscriptoma humà: el catàleg complet de totes les molècules d'ARN utilitzades en tots els teixits, en totes les etapes de la vida i en totes les poblacions.

"El pangenoma ens informa sobre la diversitat de l'ADN; és, essencialment, un llibre d'instruccions. El pantranscriptoma ens indica quines paraules són importants en cada cèl·lula del nostre cos. Tots dos són essencials per comprendre plenament la diversitat humana", afirma la Dra. Melé.

Construir un recurs així és una tasca titànica. Només aquest estudi va generar més de 10 terabits de dades i 800 milions de seqüències completes d'ARN, cosa que va requerir eines avançades d'aprenentatge automàtic i la capacitat del superordinador MareNostrum 5 del BSC. Escalar aquest treball a cents de teixits i milers de persones exigiria capacitats computacionals i una coordinació global d'una altra magnitud.

Però els investigadors sostenen que aquesta ambició val la pena.

"Esperem que el nostre estudi serveixi com a base i com a invitació a la comunitat científica global per aportar dades, mètodes i poblacions diverses. Només mitjançant un esforç col·lectiu aconseguirem un mapa veritablement complet i inclusiu de la biologia humana, essencial per a una medicina genòmica justa i precisa", conclou la Dra. Melé.