NOTICIAS
Human genome ‘re-read’ greatly expands catalogue of large genetic variation
Dr. Bernardo Rodriguez-Martin and Emiliano Sotelo-Fonseca, authors of one of the research papers
Researchers have significantly expanded the catalogue of known human genetic variation. The resulting datasets, shared in two back-to-back publications in the journal Nature, constitute what may be the most complete overview of the human genome to date.
The first paper, jointly led by the European Molecular Biology Laboratory (EMBL), Heinrich Heine University Düsseldorf (HHU) and the Centre for Genomic Regulation (CRG) in Barcelona, analysed the genomes of 1,019 people drawn from 26 populations on five continents.
The researchers specifically looked for structural variants in the human genome. These are large chunks of DNA that have been deleted, duplicated, inserted, inverted or shuffled. Differences in structural variants between individuals can mean changes to thousands of DNA letters at once, often knocking out genes and driving many rare diseases and cancers.
The team found and categorised more than 167,000 structural variants across the 1,019 individuals, doubling the known amount of structural variation in the human pangenome, a reference that stitches together DNA from many people instead of relying on a single genome. Each person carried a median of 7.5 million letters’ worth of structural changes, underscoring how much genome editing nature performs on its own.
“We found a treasure trove of hidden genetic variation in these populations, many of which were underrepresented in earlier reference sets. For example, 50.9% of insertions and 14.5% of deletions we found have not been reported in previous variation catalogues. It’s an important step to map blind spots in the human genome and reduce the bias that has long favoured genomes of European descent and paves the way for therapies and tests that work just as well for people everywhere,” says Dr. Bernardo Rodríguez-Martín, co-corresponding author of the study.
Around three in five (59%) of the variants uncovered occurred in fewer than one per cent of individuals, a level of rarity crucial for diagnosing genetic disease because it can help filter out harmless variations more effectively. In tests, the new reference set reduces the list of suspect mutations from tens of thousands to just a few hundred, accelerating the path to the diagnosis of rare genetic syndromes and other types of diseases like cancer.
Bernardo Rodríguez-Martín began working on the project in Jan Korbel’s lab at EMBL and completed it after moving to the CRG when starting his own group. He developed SVAN, a software which categorises every DNA change, like “extra piece copied” or “chunk deleted”, helping the team sift through the genetic data to discern new patterns.
SVAN revealed that more than half of the newly mapped diversity in the human genome was found to lie in highly repetitive stretches of DNA, parts of the genome once dismissed as junk or too hard to study. “Repetitive elements represent a rich and previously overlooked reservoir of genetic diversity. They are key protagonists in human diversity, disease and evolution,” says Emiliano Sotelo-Fonseca, PhD student at the CRG and co-author of the first study.
These repetitive segments of DNA include mobile elements, also known as ‘jumping genes’ due to their ability to copy and paste themselves around the genome. The researchers found that among the thousands of mobile elements in the human genome, most of the germline mutagenesis derives from the activity of a few dozens of highly active elements.
For example, one particularly hyperactive LINE-1 element was found to hijack a powerful regulatory switch to make far more copies of itself than usual, scattering extra genetic material across many people’s DNA. The researchers saw a similar trick with another class of jumping genes called SVAs.
“Our work shows how mobile elements boost their activity by hijacking our genome regulation buttons, an underappreciated strategy that could help drive diseases like cancer and which merits further research,” says Dr. Rodríguez-Martín.
The second paper, jointly led by the European Molecular Biology Laboratory (EMBL) and Heinrich Heine University Düsseldorf (HHU), used a much smaller sample set of only 65 individuals but combined several powerful sequencing methods to piece together human genomes in unprecedented detail.
The approach helped researchers decode the hardest-to-read stretches, including centromeres. The near-complete, gap-free assemblies of every chromosome for these individuals helped researchers detect large genetic variants within those regions missed by the first paper and other studies.
The findings show that combining the approach of paper one, with many genomes sequenced at modest depth, with the approach of paper two, with a few genomes in high detail, is the fastest path to a complete, inclusive map of human genetic diversity.
"One study uses less sequencing power, but a much larger cohort. The other uses a smaller cohort, but much more sequencing power per sample. This led to complementary conclusions,” says Dr. Jan Korbel, Group Leader and Interim Head at EMBL Heidelberg, and co-senior author of both studies.
Both papers re-sequenced individuals from the 1000 Genomes project, the landmark effort that mapped global genetic diversity in 2015. The project relied on “short read” sequencing technology, which could only read very small bits of DNA at a time. These were too short to reveal big chunks of DNA that are missing or copied, long stretches that flip direction or repeats that look almost identical in many places.
The advances made by the new studies were possible thanks to “long-read” sequencing, a recent technology that reads thousands to tens-of-thousands of DNA letters in one go, helping researchers find large amounts of hidden variation undetectable with previous methods.
The two papers also make important inroads towards the construction of a human pangenome reference. For the last twenty years, scientists have used one person’s DNA sequence as the “standard” human genome. A pangenome would be better suited for personalised medicine, reflecting global diversity.
By developing innovative algorithms that can analyse 1,019 diverse genomes for breadth and 65 ultra-complete genomes for depth, the researchers provide a roadmap that makes assembling a true human pangenome more practical rather than aspirational, particularly as long-read sequencing costs are falling.
"Through these studies, we have created a comprehensive and medically-relevant resource that can now be used by researchers everywhere to better understand the origins of human genomic variation, and see how it is affected by a plethora of different factors,” says Tobias Marschall, Professor at Heinrich Heine University Düsseldorf and co-senior author of both studies. "This is a great example of collaborative research opening up new vistas in genomic science and a step towards a more complete human pangenome.”
EN CASTELLANO
La re-secuenciación de 1.109 genomas humanos amplía el catálogo de variación genética
Un equipo internacional ha ampliado significativamente el catálogo de la variación genética humana conocida. Los conjuntos de datos resultantes, compartidos en dos publicaciones consecutivas en la revista Nature, constituyen lo que puede ser la visión general más completa del genoma humano hasta la fecha.
El primer trabajo, liderado conjuntamente por el Laboratorio Europeo de Biología Molecular (EMBL), la Universidad Heinrich Heine de Düsseldorf (HHU) y el Centro de Regulación Genómica (CRG) de Barcelona, analizó los genomas de 1.019 personas procedentes de 26 poblaciones de los cinco continentes.
El equipo analizó las variantes estructurales en el genoma humano. Se trata de grandes trozos de ADN que han sido eliminados, duplicados, insertados, invertidos o mezclados. Las diferencias en las variantes estructurales entre personas pueden implicar cambios en miles de letras del ADN a la vez, lo que a menudo conlleva la eliminación de genes y el impulso de muchas enfermedades raras y diferentes tipos de cáncer.
El equipo encontró y clasificó más de 167.000 variantes estructurales en las 1.019 personas, duplicando la cantidad conocida de variación estructural en el pangenoma humano, una referencia que agrupa el ADN de muchas personas en lugar de disponer de un solo genoma de referencia. Cada persona era portadora de una media de 7,5 millones de letras en cambios estructurales, lo que subraya la abundante edición del genoma que la naturaleza realiza por sí sola.
"Encontramos un tesoro oculto de variación genética en estas poblaciones, muchas de las cuales estaban subrepresentadas en conjuntos de referencia anteriores. Por ejemplo, el 50,9% de las inserciones y el 14,5% de las deleciones que encontramos no se han reportado en catálogos de variaciones anteriores. Es un paso importante para mapear los puntos ciegos en el genoma humano y reducir el sesgo que durante mucho tiempo ha favorecido a los genomas de ascendencia europea y allana el camino para que las terapias funcionen igual de bien para personas de todo el mundo", dice el Dr. Bernardo Rodríguez Martín, coautor principal del estudio.
Alrededor de tres de cada cinco (59%) de las variantes descubiertas se dieron en menos del uno por ciento de las personas, un nivel de rareza crucial para el diagnóstico de enfermedades genéticas porque puede ayudar a filtrar variaciones inofensivas de manera más efectiva. En pruebas, el nuevo conjunto de referencia reduce la lista de mutaciones sospechosas de decenas de miles a solo unos pocos centenares, acelerando el camino hacia el diagnóstico de enfermedades raras y otros tipos de enfermedades como el cáncer.
Bernardo Rodríguez Martin comenzó a trabajar en el proyecto en el laboratorio de Jan Korbel en el EMBL y lo completó después de trasladarse al CRG, donde creó su propio grupo de investigación. Desarrolló SVAN, un software que categoriza cada cambio en el ADN, con etiquetas del tipo "pieza extra copiada" o "trozo eliminado", lo que ayudó al equipo a examinar los datos genéticos para discernir nuevos patrones.
SVAN descubrió que más de la mitad de la diversidad descubierta en el estudio se encuentra en tramos altamente repetitivos de ADN, partes del genoma que alguna vez se descartaron como basura o demasiado difíciles de estudiar. "Los elementos repetitivos representan una reserva de diversidad genética rica, aunque ha sido pasada por alto con anterioridad. Son protagonistas clave en la diversidad, la enfermedad y la evolución humana", afirma Emiliano Sotelo Fonseca, estudiante de doctorado en el CRG y coautor del primer estudio.
Estos segmentos repetitivos de ADN también incluyen elementos móviles, también conocidos como "genes saltarines" debido a su capacidad para copiarse y pegarse alrededor del genoma. El estudio encontró que, entre los miles de elementos móviles en el genoma humano, la mayor parte de la actividad de la línea germinal se deriva de la actividad de unas pocas docenas de elementos altamente activos.
Por ejemplo, se descubrió que un elemento LINE-1 particularmente hiperactivo secuestra a un poderoso elemento regulador para hacer muchas más copias de sí mismo de lo habitual, dispersando material genético en el ADN de muchas personas. También se observó un truco similar con otra clase de genes saltarines llamados SVA.
"Nuestro trabajo muestra cómo los elementos móviles aumentan su actividad secuestrando a los interruptores que regulan el genoma, una estrategia infravalorada que podría ayudar a impulsar enfermedades como el cáncer y que merece ser investigada en más profundidad", afirma el Dr. Rodríguez Martín.
El segundo estudio, dirigido conjuntamente por el Laboratorio Europeo de Biología Molecular (EMBL) y la Universidad Heinrich Heine de Düsseldorf (HHU), utilizó un conjunto de muestras mucho más pequeño, de solo 65 persones, pero combinó varios métodos de secuenciación potentes para reconstruir los genomas humanos con un detalle sin precedentes.
El enfoque ayudó al equipo internacional a decodificar los tramos más difíciles de leer, incluidos los centrómeros. Los ensamblajes casi completos y sin espacios de cada cromosoma de estas personas ayudaron a identificar grandes variantes genéticas dentro de esas regiones que no fueron detectables en el primer estudio ni en otros previos.
Los hallazgos muestran que la combinación del enfoque del primer estudio, con muchos genomas secuenciados a una profundidad modesta, con el enfoque del segundo, de unos pocos genomas secuenciados con gran detalle, es el camino más rápido hacia un mapa completo e inclusivo de la diversidad genética humana.
"Un estudio utiliza menos potencia de secuenciación, pero una cohorte mucho más grande. El otro utiliza una cohorte más pequeña, pero con mucha más potencia de secuenciación por muestra. Esto condujo a conclusiones complementarias", dice el Dr. Jan Korbel, líder de grupo, jefe en funciones del EMBL Heidelberg, y coautor principal de ambos estudios.
Ambos estudios son fruto de la re-secuenciación de personas del proyecto 1.000 Genomas, el primer esfuerzo para mapear la diversidad genética global en 2015. El proyecto se basó en la tecnología de secuenciación de "lectura corta", que solo permite leer fragmentos muy pequeños de ADN a la vez. Estos eran demasiado cortos para revelar grandes trozos de ADN que faltan o están copiados, tramos largos que cambian de dirección o repeticiones que parecen casi idénticas en muchos lugares.
Los avances logrados por los nuevos estudios fueron posibles gracias a la secuenciación de "lectura larga", una tecnología reciente que lee de miles a decenas de miles de letras de ADN de una sola vez, lo que ayuda encontrar grandes cantidades de variación oculta indetectable con “lectura corta”.
Los estudios aportan avances importantes para la construcción de un pangenoma humano de referencia. Durante los últimos veinte años, se ha utilizado la secuencia de ADN de una persona como el genoma humano "estándar". Un pangenoma sería más adecuado para la medicina personalizada, ya que reflejaría la diversidad global.
Mediante el desarrollo de algoritmos innovadores que pueden analizar 1.019 genomas diversos y 65 genomas extremadamente completos, los autores de ambos estudios proporcionan una hoja de ruta que permite que el ensamblaje de un verdadero pangenoma humano sea algo más factible y no solouna mera aspiración, especialmente porque los costos de secuenciación de lectura larga están disminuyendo.
"A través de estos estudios, hemos creado un recurso completo y médicamente relevante que ahora puede ser utilizado por investigadores/as de todo el mundo para comprender mejor los orígenes de la variación genómica humana y ver cómo se ve afectada por una gran cantidad de factores diferentes", dice Tobias Marschall, profesor de la Universidad Heinrich Heine de Düsseldorf y coautor principal de ambos estudios. "Este es un gran ejemplo de investigación colaborativo que abre nuevas perspectivas en la ciencia genómica y es un paso hacia un pangenoma humano más completo".
EN CATALÀ
La resseqüenciació de 1.109 genomes humans amplia el catàleg de variació genètica
Un equip internacional ha ampliat significativament el catàleg de la variació genètica humana coneguda. Els conjunts de dades resultants, compartits en dues publicacions consecutives a la revista Nature, constitueixen el que pot ser la visió general més completa del genoma humà fins ara.
El primer treball, liderat conjuntament pel Laboratori Europeu de Biologia Molecular (EMBL), la Universitat Heinrich Heine de Düsseldorf (HHU) i el Centre de Regulació Genòmica (CRG) de Barcelona, va analitzar els genomes de 1.019 persones procedents de 26 poblacions dels cinc continents.
L'equip va analitzar les variants estructurals en el genoma humà. Es tracta de grans trossos d'ADN que han estat eliminats, duplicats, inserits, invertits o barrejats. Les diferències en les variants estructurals entre persones poden implicar canvis en milers de lletres de l'ADN alhora, cosa que sovint comporta l'eliminació de gens i l'impuls de moltes malalties rares i diferents tipus de càncer.
L'equip va trobar i va classificar més de 167.000 variants estructurals en les 1.019 persones, duplicant la quantitat coneguda de variació estructural en el pangenoma humà, una referència que agrupa l'ADN de moltes persones en lloc de disposar d'un sol genoma de referència. Cada persona era portadora d’una mitjana de 7,5 milions de lletres en canvis estructurals, la qual cosa subratlla l'abundant edició del genoma que la naturalesa realitza per si sola.
"Trobàrem un tresor ocult de variació genètica en aquestes poblacions, moltes de les quals estaven subrepresentades en conjunts de referència anteriors. Per exemple, el 50,9% de les insercions i el 14,5% de les delecions que trobàrem no s'han reportat en catàlegs de variacions anteriors. És un pas important per cartografiar els punts cecs en el genoma humà i reduir el biaix que durant molt de temps ha afavorit els genomes d'ascendència europea i aplana el camí perquè les teràpies funcionin igual de bé per a persones de tot el món", diu el Dr. Bernardo Rodríguez Martín, coautor principal de l'estudi.
Al voltant de tres de cada cinc (59%) de les variants descobertes es van donar en menys de l'1 per cent de les persones, un nivell de raresa crucial per al diagnòstic de malalties genètiques perquè pot ajudar a filtrar variacions inofensives de manera més efectiva. En proves, el nou conjunt de referència redueix la llista de mutacions sospitoses de desenes de milers a només uns pocs centenars, accelerant el camí cap al diagnòstic de malalties rares i altres tipus de malalties com el càncer.
Bernardo Rodríguez Martin va començar a treballar en el projecte al laboratori de Jan Korbel a l'EMBL i el va completar després de traslladar-se al CRG, on va crear el seu propi grup de recerca. Va desenvolupar SVAN, un programari que categoritza cada canvi en l'ADN, amb etiquetes del tipus "peça extra copiada" o "tros eliminat", cosa que va ajudar l'equip a examinar les dades genètiques per discernir nous patrons.
SVAN va descobrir que més de la meitat de la diversitat descoberta en l'estudi es troba en trams altament repetitius d'ADN, parts del genoma que alguna vegada es van descartar com a escombraries o massa difícils d'estudiar. "Els elements repetitius representen una reserva de diversitat genètica rica, encara que ha estat passada per alt amb anterioritat. Són protagonistes clau en la diversitat, la malaltia i l'evolució humana", afirma Emiliano Sotelo Fonseca, estudiant de doctorat al CRG i coautor del primer estudi.
Aquests segments repetitius d'ADN també inclouen elements mòbils, també coneguts com a "gens saltadors" a causa de la seva capacitat per copiar-se i enganxar-se al voltant del genoma. L'estudi va trobar que, entre els milers d'elements mòbils en el genoma humà, la major part de l'activitat de la línia germinal es deriva de l'activitat d'unes poques dotzenes d'elements altament actius.
Per exemple, es va descobrir que un element LINE-1 particularment hiperactiu segresta un poderós element regulador per fer moltes més còpies de si mateix del que és habitual, dispersant material genètic en l'ADN de moltes persones. També es va observar un truc similar amb una altra classe de gens saltadors anomenats SVA.
"El nostre treball mostra com els elements mòbils augmenten la seva activitat segrestant els interruptors que regulen el genoma, una estratègia infravalorada que podria ajudar a impulsar malalties com el càncer i que mereix ésser investigada en més profunditat", afirma el Dr. Rodríguez Martín.
El segon estudi, dirigit conjuntament pel Laboratori Europeu de Biologia Molecular (EMBL) i la Universitat Heinrich Heine de Düsseldorf (HHU), va utilitzar un conjunt de mostres molt més petit, de només 65 persones, però va combinar diversos mètodes de seqüenciació potents per reconstruir els genomes humans amb un detall sense precedents.
L'enfocament va ajudar l'equip internacional a descodificar els trams més difícils de llegir, inclosos els centròmers. Els assemblatges gairebé complets i sense espais de cada cromosoma d'aquestes persones van ajudar a identificar grans variants genètiques dins d'aquestes regions que no van ser detectables en el primer estudi ni en altres de previs.
Les troballes mostren que la combinació de l'enfocament del primer estudi, amb molts genomes seqüenciats a una profunditat modesta, amb l'enfocament del segon, d'uns pocs genomes seqüenciats amb gran detall, és el camí més ràpid cap a un mapa complet i inclusiu de la diversitat genètica humana.
"Un estudi utilitza menys potència de seqüenciació, però una cohort molt més gran. L'altre utilitza una cohort més petita, però amb molta més potència de seqüenciació per mostra. Això va conduir a conclusions complementàries", diu el Dr. Jan Korbel, líder de grup, cap en funcions de l'EMBL Heidelberg, i coautor principal de tots dos estudis.
Ambdós estudis són fruit de la resseqüenciació de persones del projecte 1.000 Genomes, el primer esforç per cartografiar la diversitat genètica global el 2015. El projecte es va basar en la tecnologia de seqüenciació de "lectura curta", que només permet llegir fragments molt petits d'ADN alhora. Aquests eren massa curts per revelar grans trossos d'ADN que falten o estan copiats, trams llargs que canvien de direcció o repeticions que semblen gairebé idèntiques en molts llocs.
Els avenços assolits pels nous estudis van ser possibles gràcies a la seqüenciació de "lectura llarga", una tecnologia recent que llegeix de milers a desenes de milers de lletres d'ADN d'un sol cop, cosa que ajuda trobar grans quantitats de variació oculta indetectable amb "lectura curta".
Els estudis aporten avenços importants per a la construcció d'un pangenoma humà de referència. Durant els últims vint anys, s'ha utilitzat la seqüència d'ADN d'una persona com el genoma humà "estàndard". Un pangenoma seria més adequat per a la medicina personalitzada, ja que reflectiria la diversitat global.
Mitjançant el desenvolupament d'algoritmes innovadors que poden analitzar 1.019 genomes diversos i 65 genomes extremadament complets, els autors d'ambdós estudis proporcionen un full de ruta que permet que l'assemblatge d'un veritable pangenoma humà sigui quelcom més factible i no pas una mera aspiració, especialment perquè els costos de seqüenciació de lectura llarga estan disminuint.
"A través d'aquests estudis, hem creat un recurs complet i mèdicament rellevant que ara pot ser utilitzat per investigadors/es de tot el món per comprendre millor els orígens de la variació genòmica humana i veure com es veu afectada per una gran quantitat de factors diferents", diu Tobias Marschall, professor de la Universitat Heinrich Heine de Düsseldorf i coautor principal d'ambdós estudis. "Aquest és un gran exemple d'investigació en col·laboració que obre noves perspectives en la ciència genòmica i és un pas cap a un pangenoma humà més complet".