Colección de citas famosas - Libros antiguos - El pasado y el presente de la secuenciación del genoma completo

El pasado y el presente de la secuenciación del genoma completo

El genoma representa el punto de partida de la investigación genética. Desde el descubrimiento de la estructura del ADN, los científicos han trabajado para determinar la secuencia de bases de manera precisa. Desde que se secuenció el primer fragmento de levadura en 1965, las longitudes de lectura de la secuenciación aún son insuficientes para cubrir el tamaño completo del genoma de la mayoría de las especies, por lo que la tecnología de ensamblaje del genoma ha sido una tecnología clave para la investigación y el desarrollo continuos. Este artículo revisa sistemáticamente las tecnologías importantes y los principales hitos relacionados con la secuenciación del genoma completo, así como las ventajas y desafíos de las tecnologías actuales de secuenciación de tercera generación.

La siguiente figura muestra hitos importantes en el ensamblaje del genoma. Fondos de diferentes colores muestran los principales logros del ensamblaje, desde la secuenciación temprana basada en nucleótidos hasta la secuenciación de escopeta basada en Sanger, la secuenciación NGS de segunda generación a gran escala y la secuenciación TGS actual de tercera generación. El Proyecto Genoma Humano (PGH), que duró 13 años (1990-2003) y costó 3.000 millones de dólares, aceleró sin duda el proceso de ensamblaje del genoma. NGS ha generado una serie de nuevas aplicaciones, incluida la secuenciación del exoma completo, RNA-seq, ChIp-seq, WGBS-seq, etc., que han promovido en gran medida la aplicación de la secuenciación del genoma. Después de 2010, las nuevas tecnologías marcaron el comienzo de la era de la secuenciación TGS de tercera generación: lectura larga y secuenciación larga, que aumentaron en gran medida las ventajas del ensamblaje del genoma y mejoraron en gran medida la continuidad del ensamblaje del genoma.

La definición de TGS puede variar, pero normalmente se refiere a una tecnología que secuencia directamente una única molécula de ADN sin amplificación. Estas técnicas producen lecturas más largas que NGS, y cada lectura puede abarcar de miles a cientos de kilobits/segundo. Las tecnologías NGS, como las lecturas vinculadas a la genómica 10X y Hi-C, pueden mejorar la continuidad de los ensamblajes del genoma, pero la aparición de TGS ha facilitado la mejora de la continuidad del ensamblaje.

En la actualidad, la tecnología de secuenciación de tercera generación se utiliza ampliamente. Una es la tecnología de secuenciación en tiempo real de una sola molécula (SMRT) perfeccionada y comercializada por Pacific Biosciences (Pacific bio), y la otra es desarrollada por Oxford. Nanopore Technology Company (ONT) comercializa tecnología de secuenciación de nanoporos. La tecnología de secuenciación SMRT aplica el principio de secuenciación durante la síntesis. El chip SMRT se utiliza como portador de secuenciación y en el portador se distribuyen millones de orificios de guía de ondas de modo cero (ZMW) a nanoescala. La polimerasa en cada ZMW captura la secuencia de ADN de la biblioteca y los dNTP se excitan de forma fluorescente, lo que permite que la secuenciación se produzca simultáneamente con la síntesis basada en la longitud de la señal fluorescente capturada. Actualmente, existen dos modos de secuenciación SMRT, uno es el modo de lectura larga continua (CLR) y el otro es el modo de secuencia consenso circulante (CCS). CLR tiene una longitud de lectura más larga, pero la tasa de error de la secuenciación de bases es mayor (la precisión de 90 es mucho menor que la de 99,9 de NGS), pero los errores de secuenciación son completamente aleatorios. El modo CCS aprovecha esta característica para reducir la tasa de error del control de sincronización al nivel NGS mediante la autocorrección, mientras que CLR sacrifica la longitud de lectura del control de sincronización.

La secuenciación de nanoporos utiliza nanoporos bacterianos genéticamente modificados insertados en bicapas lipídicas artificiales, que se colocan en micropocillos individuales de decenas de micrómetros de ancho y se disponen en un chip sensor. A medida que cada hebra de ADN pasa a través de un canal, interfiere con la corriente que fluye a través del poro, y este cambio será medido por un sensor semiconductor. Diferentes bases alteran el campo eléctrico de maneras ligeramente diferentes, y los cambios de corriente registrados pueden traducirse en secuencias de ADN. La ONT puede leer durante más tiempo, dependiendo del tamaño de la biblioteca de ADN preparada, pero su precisión básica es difícil de corregir y las tasas de error de secuenciación son altas.

Debido a su gran longitud de lectura, la tecnología de secuenciación de tercera generación puede abarcar eficazmente regiones complejas del genoma, mejorando así significativamente la calidad del ensamblaje del genoma. Además, en los genomas diploides (poliploides), el TGS puede generar más fácilmente bloques de haplotipos a largo plazo, distinguir la información genética de los padres, evitar los genomas quiméricos y facilitar la detección precisa de variantes estructurales (SV), incluidas variantes largas e indeles grandes. , duplicaciones, inversiones y translocaciones en regiones altamente repetitivas. Al mismo tiempo, la secuenciación de tercera generación también puede lograr la secuenciación epigenética a través de reacciones cinéticas enzimáticas de PacBio o señales de corriente iónica en nanoporos.

FALCON es un software de ensamblaje de novo basado en tres generaciones de datos, desarrollado directamente por PacBio y lanzado en 2013. Hereda el proceso de ensamblaje jerárquico del genoma (HGAP). Primero, las secuencias mismas se comparan para corregir la precisión de lectura de la secuenciación de tercera generación y luego se construyen contigs utilizando un diagrama de De Brukin (DBG), como se muestra en la siguiente figura. FALCON reconoce secuencias diploides y puede generar secuencias alélicas (cóntigs alternativos/a-cóntigs) y secuencias del genoma primario (cóntigs primarios/p-cóntigs) que contienen información de variación del sitio. FALCON-Unzip es una versión mejorada de FALCON que obtiene haplotipos altamente congruentes utilizando SNP heterocigotos identificados en el ensamblaje inicial, luego los traza en el ensamblaje usando datos Hi-C y los ensambla completamente usando haplótigos y secuencias de dos haplotipos.

Canu es un software de ensamblaje de tercera generación derivado de Celera Assember, que puede usarse para secuenciar los resultados obtenidos por PacBio y Nanopore. Se ensambla mediante un método de consenso de diseño de superposición (OLC), que utiliza la superposición entre secuencias largas y se divide principalmente en tres pasos: corrección de errores, poda y ensamblaje. Para FALCON, aunque la corrección de errores previa al ensamblaje mejora enormemente en comparación con longitudes de lectura cortas, los haplotipos ensamblados siguen siendo quiméricos y las secuencias repetidas a menudo se pliegan en una sola secuencia. Para resolver este problema, una nueva versión del software TrioCanu lanzada en 2018 puede eliminar completamente los haplotipos utilizando información de los padres. Utiliza los datos de Illumina de segunda generación de ambos padres para clasificar las secuencias de las muestras ensambladas de acuerdo con diferentes SNP antes del ensamblaje, y luego ensambla de forma independiente dos conjuntos de haplotipos de los padres, por lo que TrioCanu es particularmente adecuado para el ensamblaje de genomas de alta heterocigosidad.

La velocidad de cálculo de Canu es muy lenta. HiFiasm es un software de ensamblaje de novo de análisis rápido de haplotipos para lecturas PacBio HiFi desarrollado en los últimos dos años. Puede ejecutarse en varios subprocesos en una máquina para completar rápidamente el ensamblaje del genoma con menos consumo de recursos. Al mismo tiempo, utiliza los datos parentales proporcionados para lograr el ensamblaje de haplotipos de la descendencia de diferentes padres. Sin embargo, la precisión del haplotipado es ligeramente peor que la de TrioCanu.

La precisión de los resultados del montaje y la optimización del trabajo de cálculo son ambos aspectos que deben tenerse en cuenta en el montaje. Actualmente se han desarrollado diversos software para montaje de novo, entre los que se encuentran Wtdbg2, Flye, Peregrine, Shasta, etc. Relativamente rápido, pero su calidad de montaje puede ser menos precisa. Todos los métodos y software de ensamblaje del genoma tienen ventajas y desventajas. En aplicaciones prácticas, podemos considerar las especies de ensamblaje reales, las estrategias de secuenciación y los objetivos de ensamblaje, y considerar de manera integral la selección de un software de ensamblaje excelente y preciso.

Para genomas grandes, incluso las lecturas largas no pueden abarcar toda la secuencia cromosómica, y se necesita información de enlace adicional para localizar y secuenciar los contigs ensamblados, elevando así el ensamblaje del genoma al nivel de Scanfold. El mapeo bionanoóptico es una tecnología de ADN de una sola molécula. Este método genera un mapa óptico genético basado en marcadores de ADN, que luego se combina con el conjunto superpuesto ensamblado inicialmente, que puede realizar fases y secuenciar aún más el conjunto superpuesto y producir andamios más largos. Además, la espectroscopia de Bionano se puede utilizar para análisis de SV y metilación.

Otra técnica para orientar y clasificar contigs se basa en la captura de la conformación cromosómica (3C) (Hi-C). La tecnología Hi-C primero utiliza formaldehído para fijar la conformación espacial de los cromosomas y luego utiliza endonucleasas de restricción para tratar el ADN y volver a unir moléculas de ADN espacialmente adyacentes. Esta técnica explota la información espacial del genoma, combinando grupos y andamios superpuestos para distribuirla a nivel cromosómico. Hi-C es actualmente el único método para lograr andamios a nivel cromosómico en genomas grandes, pero tiende a estar menos conservado que los andamios de Bionano. El plegamiento impredecible de la cromatina conduce a interacciones en regiones distantes de los cromosomas, lo que puede provocar errores de ensamblaje, como inversiones artificiales, desalineación de la estructura en el mismo cromosoma o falta de coincidencia de la estructura en diferentes cromosomas.

La combinación de diferentes técnicas puede corregir mejor estos errores e incluso obtener ensamblajes telómero a telómero de cromosomas completos.

Los métodos de ensamblaje del genoma se han innovado y optimizado constantemente. La calidad del ensamblaje ha ido mejorando gracias a mejoras continuas en las tecnologías existentes y a la introducción de nuevos métodos de secuenciación de ADN y herramientas bioinformáticas. Las capacidades de alto rendimiento introducidas por NGS y las secuencias de mayor calidad proporcionadas por TGS finalmente hacen que los genomas complejos estén disponibles para estudios de todo el genoma. La investigación en genética humana, incluida la genómica de poblaciones, la localización y el diagnóstico de enfermedades genéticas, la planificación de medicamentos personalizados, la investigación del cáncer y las pruebas prenatales, se ha beneficiado de los avances en la secuenciación y el ensamblaje del genoma durante la última década. Asimismo, estos métodos se utilizan cada vez más en organismos no modelo para comprender los procesos ecológicos y evolutivos. El compromiso con la secuenciación y el ensamblaje del genoma de referencia se ha ampliado desde proyectos de una sola especie a la coordinación de múltiples especies, y actualmente están en marcha proyectos destinados a producir genomas de alta calidad para la mayoría de los organismos mediante la combinación de métodos NGS y TGS.

Gianni AM, Gallo GR, Gianfranceschi L, Formenti G. El largo camino hacia la genómica: métodos históricos y actuales para la secuenciación y el ensamblaje del genoma. Comput Structural Biotechnology Journal 2065438 noviembre de 2009 65438 2007;18:9-19.doi:10.1016/j.csbj.2019.11.002. PMID: 31890139; PMCID: PMC6926122.