You are here

    • You are here:
    • Home > Research > CRG standardises COVID-19 data analysis to aid international research efforts

CRG standardises COVID-19 data analysis to aid international research efforts

NewsNEWS

27
Mar
Fri, 27/03/2020 - 09:45

CRG standardises COVID-19 data analysis to aid international research efforts

The Spanish Minister of Science and Innovation Pedro Duque plays with a nanopore sequencer in a recent visit at the CNAG-CRG facilities.

EN ESPAÑOL/EN CATALÀ

Researchers from the Centre for Genomic Regulation (CRG) have launched a new database to advance the international research efforts studying COVID-19. 

The publicly-available, free-to-use resource (https://covid.crg.eu) can be used by researchers from around the world to study how different variations of the virus grow, mutate and make proteins. 

“Scientists are working round the clock to understand SARS-CoV-2, the virus causing COVID-19, so that we can find its weak spots and beat it. A huge amount of scientific data is being published around the world,” says Eva Novoa, a researcher at the CRG in Barcelona.  

“However, some of the technologies we use to study SARS-CoV-2, such as nanopore RNA sequencing, are so new that the results of one paper aren’t comparable to another due to the patchwork of different standards and methodologies used. We are taking all this data and analyzing it so that it meets a more universally comparable standard. This will help researchers more quickly and accurately spot the strengths and weaknesses of the coronavirus.” 

To understand how the coronavirus grows, mutates and replicates, scientists have to sequence the RNA of COVID-19. The RNA sequence reveals crucial information about the proteins the virus makes to invade human cells and replicate, which in turn informs governments on the infectiousness and severity of the pandemic. 

Traditional sequencing tools can take a long time to provide results. In recent years, sequencing data in real time has become a reality thanks to the use of nanopore sequencing technologies, revolutionizing genomics research and disease outbreak monitoring. Nanopore sequencing provides scientists and clinicians with immediate access to the DNA and RNA sequence information of any living cell in real-time, enabling a rapid response against the threat of a pandemic. 

However, the raw data produced by nanopore sequencing is highly complex. Scientists and clinicians currently lack systematic guidelines for the reproducible analysis of the data, limiting the vast potential of the nascent technology.  

To standardize the analysis of publicly available SARS-CoV-2 nanopore sequencing data, researchers at the Centre for Genomic Regulation (CRG) in Barcelona are using MasterOfPores, a computer program developed by the group of Eva Novoa and CRG Bioinformatics Unit. The software was first described last week in Frontiers in Genetics.   

“The internet and an increasing culture of open science, data sharing and preprints have transformed the research landscape. Infrastructure that would take months to set up to research an emerging virus can now be done in just a few days owing to novel scientific computing approaches,” says Julia Ponomarenko, Head of the Bioinformatics Unit at the CRG.

MasterOfPores can be executed on any Unix-compatible OS on a computer, cluster or cloud without the need of installing any additional software or dependencies, and is freely available in Github. The publicly-available, free-to-use resource has currently analysed 3TB of SARS-CoV-2 nanopore RNA sequencing data. The CRG researchers will continue to update the resource with new data as soon as it becomes available. 

EN ESPAÑOL

El CRG estandariza el análisis de datos de COVID-19 para ayudar a las iniciativas internacionales de investigación 

Investigadores del Centro de Regulación Genómica (CRG) han lanzado una nueva base de datos para para ayudar a las iniciativas de investigación internacional que estudian COVID-19. 

Es un recurso público y gratuito (https://covid.crg.eu) que pueden utilizar investigadores de todo el mundo para estudiar cómo las diferentes variaciones del virus crecen, mutan y producen proteínas. 

“Los científicos trabajan sin tregua para comprender el SARS-CoV-2, el virus que causa COVID-19, para encontrar sus puntos débiles y vencerlo. Se esta publicando una gran cantidad de datos científicos en todo el mundo", afirma Eva Novoa, investigadora del CRG en Barcelona.  

"Sin embargo, algunas de las tecnologías que utilizamos para estudiar el SARS-CoV-2, como la secuenciación de ARN mediante nanoporos, son tan nuevas que los resultados de un artículo no son comparables a otro debido a los diferentes estándares y metodologías utilizadas. Estamos tomando todos estos datos y analizándolos para que cumplan con un estándar más universalmente comparable. Esto ayudará a los investigadores a detectar con mayor rapidez y precisión los puntos fuertes y débiles del coronavirus". 

Para comprender cómo crece, muta y se replica el coronavirus, los científicos tienen que secuenciar el ARN de COVID-19. La secuencia de ARN revela información crucial sobre las proteínas que produce el virus para invadir las células humanas y replicarse, lo que a su vez informa a los gobiernos sobre la tasa de infección y la gravedad de la pandemia. 

Las herramientas de secuenciación tradicionales pueden tardar mucho tiempo en proporcionar resultados. En los últimos años, la secuenciación de datos en tiempo real se ha convertido en una realidad gracias al uso de tecnologías de secuenciación mediante nanoporos, revolucionando la investigación genómica y el monitoreo de brotes de enfermedades. La secuenciación mediante nanoporos proporciona a científicos y clínicos acceso inmediato a la información de secuencia de ADN y ARN de cualquier célula viva en tiempo real, lo que permite una respuesta rápida contra la amenaza de una pandemia.

Sin embargo, los datos en bruto producidos por la secuenciación mediante nanoporos son altamente complejos. Actualmente, los científicos y los médicos carecen de pautas sistemáticas para el análisis reproducible de los datos, lo que limita el potencial masivo de esta nueva tecnología. 

Para estandarizar el análisis de los datos públicos de secuenciación mediante nanoporos de SARS-CoV-2, los investigadores del CRG en Barcelona están utilizando MasterOfPores, un programa informático desarrollado por el grupo de Eva Novoa y la Unidad de Bioinformática del CRG. El software se describió por primera vez la semana pasada en Frontiers in Genetics. 

MasterOfPores se puede ejecutar en cualquier sistema operativo compatible con Unix en un ordenador, clúster o nube, sin la necesidad de instalar ningún software adicional, y está disponible gratuitamente en Github. Este recurso público y gratuito ya ha analizado 3 TB de datos de secuenciación mediante nanoporos de ARN de SARS-CoV-2. Los investigadores de CRG continuarán actualizando este recurso con nuevos datos tan pronto como estén disponibles. 

“El Internet, la creciente cultura de ciencia abierta, el intercambio de datos y los preprints han transformado el panorama de la investigación. En años pasados tardaríamos meses en configurar la infraestructura necesaria para para investigar un virus emergente, pero ahora se puede hacer en solo unos días gracias a los nuevos modelos computacionales científicos”, dice Julia Ponomarenko, Jefa de la Unidad de Bioinformática del CRG. 

EN CATALÀ

El CRG estandarditza l’anàlisi de dades de COVID-19 per ajudar a les iniciatives internacionals de recerca 

Investigadors del Centre de Regulació Genòmica (CRG) han llençat una nova base de dades per ajudar les diferents iniciatives de recerca a nivell internacional de COVID-19 que s’estan duent a terme. 

Aquest és un recurs públic i gratuït (https://covid.crg.eu) i el poden fer servir investigadors de tot el món per estudiar com les diferents variacions del virus creixen, muten i produeixen proteïnes. 

“Els científics treballen sense parar per comprendre SARS-CoV-2, el virus que causa COVID-19, per trobar els seus punts febles i vèncer-lo. Es publiquen una gran quantitat de dades científiques a tot el món", afirma Eva Novoa, investigadora del CRG a Barcelona.  

"Tot i això, algunes de las tecnologies que fem servir per estudiar el SARS-CoV-2, com la seqüenciació d’ARN mitjançant nanopors, són tan noves que els resultats d’un article no són comparables amb un altre degut als diferents estàndards i metodologies utilitzades. El que estem fent es prendre totes aquestes dades i analitzar-les de manera que compleixin un estàndard més universalment comparable. Això ajudarà als investigadors a detectar de manera ràpida i precisa els punts forts i febles del coronavirus". 

Per comprendre com creix, muta i es replica el coronavirus, els científics han de seqüenciar l’ARN de COVID-19. La seqüència d’ARN revela informació crucial sobre les proteïnes que produeix el virus per envair les cèl·lules humanes i replicar-se, això també informa als governs sobre la taxa d’infecció i la gravetat de la pandèmia. 

Les eines de seqüenciació tradicionals poden trigar molt a donar resultats. Els últims anys, la seqüenciació de dades en temps real s’ha convertit en una realitat gràcies a la utilització de tecnologies de seqüenciació mitjançant nanopors, revolucionant la recerca genòmica i el monitoratge de brots de malalties. La seqüenciació mitjançant nanopors proporciona a científics i clínics accés immediat a la informació de seqüència d’ADN i ARN de qualsevol cèl·lula viva en temps real, això permet una resposta ràpida contra l’amenaça d’una pandèmia. 

Tot i això, les dades en brut produïdes per la seqüenciació mitjançant nanopors són altament complexes. Actualment, els científics i els metges no tenen pautes sistemàtiques per a l’anàlisi reproduïble de les dades cosa que limita el gran potencial d’aquesta nova tecnologia. 

Per a estandarditzar l’anàlisi de les dades disponibles públicament de seqüenciació mitjançant nanopors de SARS-CoV-2, els investigadors del CRG a Barcelona estan fent servir MasterOfPores, un programa informàtic desenvolupat pel grup d’Eva Novoa i la Unitat de Bioinformàtica del CRG. El software es va descriure per primer cop la setmana passada a Frontiers in Genetics. 

MasterOfPores es pot executar a qualsevol operatiu compatible amb Unix en un ordinador, clúster o núvol sense la necessitat d’instal·lar cap software addicional, i està disponible gratuïtament a Github. Aquest recurs públic i gratuït ja ha analitzat 3 TB de dades de seqüenciació mitjançant nanopors d’ARN de SARS-CoV-2. Els investigadors del CRG continuaran actualitzant aquest recurs amb noves dades tan aviat com estiguin disponibles. 

“Internet i la creixent cultura de ciència oberta, intercanvi de dades i preprints ha transformat el panorama de la recerca. La infraestructura que tardaríem mesos a configurar per investigar un virus emergent ara es pot fer en pocs dies gràcies als nous models computacionals científics”, diu Julia Ponomarenko, Cap de la Unitat de Bioinformàtica del CRG.