El transcriptoma espacial 10X utiliza expresión genética e información morfológica para dividir regiones de tejido (construcción de dominio de expresión 3D)
Los avances recientes en la transcriptómica resuelta espacialmente permiten mediciones integrales de los patrones de expresión genética al tiempo que preservan el contexto espacial de los microambientes tisulares. Descifrar el contexto espacial de los puntos de una organización requiere un uso cuidadoso de su información espacial. Con este fin, se desarrolló un marco de codificador automático de atención de gráficos STAGATE para aprender incrustaciones latentes de baja dimensión mediante la integración de información espacial y perfiles de expresión genética para identificar con precisión dominios espaciales. Para caracterizar mejor la similitud espacial en los límites del dominio espacial, STAGATE adopta un mecanismo de atención para aprender de forma adaptativa la similitud de puntos adyacentes y adopta un módulo opcional de conciencia del tipo de célula mediante la integración de la agrupación previa de la expresión genética. STAGATE se validó en diferentes conjuntos de datos transcriptómicos espaciales generados por diferentes plataformas con diferentes resoluciones espaciales. STAGATE puede mejorar significativamente la precisión del reconocimiento en el dominio espacial y eliminar el ruido de los datos conservando el patrón de expresión espacial. Es importante destacar que STAGATE se puede extender a múltiples cortes consecutivos para reducir los efectos por lotes entre cortes y extraer de manera eficiente dominios de expresión tridimensionales (3D) de tejidos 3D reconstruidos.
La función de los tejidos complejos está fundamentalmente relacionada con el contexto espacial de los diferentes tipos celulares. La posición relativa de la expresión de la transcripción en los tejidos es fundamental para comprender sus funciones biológicas y describir redes biológicas interactivas. Las tecnologías innovadoras para la transcriptómica ST con resolución espacial, como 10x Visium, Slide-seq y Stereo-seq, han hecho posible mapear la expresión genética en ubicaciones capturadas (denominadas SPOT) con una resolución multicelular o incluso multicelular. Realizar análisis del genoma completo a nivel subcelular (la tecnología espacial de BGI ya puede alcanzar el nivel subcelular).
Descifrar dominios espaciales (es decir, regiones con patrones de expresión espacial similares) es uno de los grandes retos de ST. La mayoría de los métodos de agrupación existentes no pueden utilizar de manera eficiente la información espacial disponible. Estos métodos no espaciales se pueden dividir a grandes rasgos en dos categorías. La primera categoría utiliza métodos de agrupación tradicionales como k-means y el algoritmo de Louvain. Dependiendo de las diferentes resoluciones de las técnicas ST, estos métodos se limitan a puntos pequeños o dispersos, y los resultados de agrupamiento pueden ser discontinuos en las secciones de tejido. La segunda categoría utiliza características de tipo celular definidas por secuencia de ARN unicelular para desconvolucionar puntos. Aunque estos métodos de integración son atractivos, a medida que aumenta la resolución espacial, no son adecuados para datos ST a nivel de resolución celular o subcelular.
Algunos algoritmos recientes adaptan métodos de agrupamiento para tener en cuenta mejor la dependencia espacial de la expresión genética teniendo en cuenta la similitud entre puntos adyacentes. Estos métodos muestran mejoras significativas en la identificación de dominios espaciales en secciones de tejido cerebral y canceroso. Por ejemplo, BayesSpace (puede consultar el artículo Análisis de conglomerados de transcriptomas espaciales 10X: agrupación de algoritmos de BayesSpace) es un método estadístico bayesiano que fomenta que los puntos adyacentes pertenezcan al mismo grupo mediante la introducción de estructuras espaciales adyacentes en el anterior. stLearn (puede consultar el artículo Comunicación celular del transcriptoma espacial 10X - stlearn (búsqueda de centros de puntos de acceso de comunicación regionales)) define distancias morfológicas basadas en características extraídas de imágenes histológicas y utiliza estas distancias y estructuras espaciales adyacentes para suavizar la expresión genética. SEDR emplea una red de codificador automático profundo para aprender representaciones genéticas y utiliza un codificador automático de gráfico variacional para incorporar simultáneamente información espacial. Aunque estos métodos consideran la estructura espacial de ST, la similitud de los puntos adyacentes que definen está predefinida antes del entrenamiento y no se puede aprender de forma adaptativa.
Además, estos métodos no consideran la similitud espacial de los puntos en los límites del dominio espacial con más detalle, ni integran bien la información espacial para imputar y eliminar el ruido de la expresión genética. Más importante aún, estos métodos no se pueden aplicar a múltiples cortes consecutivos para reconstruir modelos ST 3D (3D) y extraer dominios de expresión 3D (actualmente los dominios de expresión espacial 3D siguen siendo un gran problema).
STAGATE primero construye una red de vecinos espaciales (SNN) basada en la ubicación espacial y luego, opcionalmente, introduce SNN que reconocen el tipo de célula podando el SNN basándose en la agrupación previa basada en la expresión genética. La agrupación previa de la expresión genética puede identificar eficazmente regiones que contienen diferentes tipos de células, por lo que este SNN con reconocimiento del tipo de célula puede ayudar a caracterizar mejor las similitudes espaciales en los límites de estos diferentes dominios espaciales para datos ST de baja resolución espacial, por ejemplo, 10xVisium.
Luego, STAGATE aprende incrustaciones latentes de baja dimensión con información espacial y expresión genética a través del codificador automático de atención de gráficos. La expresión normalizada de cada punto se convierte primero en una incrustación latente de dimensión d mediante el codificador y luego el decodificador la invierte nuevamente al perfil de expresión reconstruido. A diferencia de los codificadores automáticos clásicos, STAGATE utiliza un mecanismo de atención en la capa intermedia del codificador y decodificador. Aprende de forma adaptativa los pesos de los bordes de los SNN (es decir, las similitudes entre puntos adyacentes) y los utiliza para actualizar la representación del punto agregando colectivamente información de sus vecinos. Finalmente, las incrustaciones latentes se utilizan para visualizar los datos a través de UMAP e identificar espacios utilizando varios algoritmos de agrupación como mclust y Louvain (para este método de agrupación, puede consultar el artículo Dominio 10X Single Cell (10X Spatial Transcriptome) Clustering Algorithm Louvain).
Para evaluar cuantitativamente el rendimiento de agrupación espacial de STAGATE, primero lo aplicamos a un conjunto de datos de Visium 10x que contiene la representación espacial de 12 segmentos de la corteza prefrontal dorsolateral humana (DLPFC). La capa DLPFC y la sustancia blanca (WM) se han anotado manualmente en función de características morfológicas y marcadores genéticos. Tomando esto como verdad fundamental, comparamos la precisión de agrupación de STAGATE con el método de agrupación no espacial implementado por SCANPY y tres métodos de agrupación espacial desarrollados recientemente (BayesSpace, stLearn y SEDR) en el índice Rand ajustado (ARI).
STARGATE puede identificar eficazmente las estructuras de capas corticales esperadas y lograr mejoras significativas en comparación con otros métodos.
Por ejemplo, en la sección 151676 de DLPFC, STAGATE delinea claramente los límites de las capas, la mejor precisión de agrupamiento (ARI =0,60) se logró. Por el contrario, la asignación de conglomerados del método no espacial SCANPY puede seguir aproximadamente el patrón de capas esperado en esta sección, pero los límites de sus conglomerados son discontinuos y hay muchos valores atípicos, lo que reduce su precisión de agrupamiento. Curiosamente, los algoritmos que explotan información espacial (STAGATE, BayesSpace, SEDR y stLearn) funcionan significativamente mejor que el método de agrupamiento no espacial SCANPY. Estos resultados demuestran la superioridad de STAGATE en el reconocimiento del dominio espacial y la necesidad de utilizar información espacial.
La integración de información espacial permite a STAGATE revelar distancias entre dominios espaciales y representar trayectorias espaciales en mapas UMAP.
Por ejemplo, en la sección 151676 del DLPFC, las capas corticales están bien organizadas y muestran una trayectoria espacial consistente (desde la capa 1 a la capa 6 y la sustancia blanca) en el mapa UMAP generado por la incrustación STAGATE. Este resultado es consistente con similitudes funcionales y ordenamiento temporal entre capas corticales adyacentes. Por el contrario, en los gráficos UMAP integrados en SCANPY, los puntos que pertenecen a diferentes capas no están claramente separados. En cuanto a los otros dos métodos de agrupamiento espacial, stLearn no distingue claramente entre WM y capas corticales, y SEDR mezcla puntos de la capa 1 y la capa 6. Las trayectorias inferidas se confirmaron adicionalmente utilizando el algoritmo de inferencia de trayectorias de PAGA. Los gráficos PAGA para las incrustaciones STAGATE y stLearn muestran una trayectoria de desarrollo casi lineal desde la capa 1 a la capa 6 y similitudes entre capas adyacentes, mientras que los resultados PAGA para las incrustaciones SCANPY y SEDR son mixtos.
Probamos además si STAGATE se puede aplicar a datos ST en diferentes resoluciones espaciales. STAGATE se aplicó por primera vez al conjunto de datos Slide-seqV2 con una resolución espacial de 10 μm del hipocampo del ratón. En comparación con la plataforma Visium 10x con una resolución de 55 μm, Slide-seqV2 puede delinear la expresión espacial con una resolución a nivel de celda con más puntos (gt; 10 000 por sección) pero menos profundidad de secuencia por punto. Como se esperaba, utilizando el algoritmo de agrupamiento de Louvain con los mismos parámetros, STAGATE caracterizó bien la estructura del tejido y reveló dominios espaciales, mientras que los grupos identificados por SCANPY y SEDR carecían de una separación espacial clara.
Por ejemplo, STAGATE delineó una estructura clara "en forma de cordón" y una estructura "en forma de flecha" en el hipocampo e identificó sus cuatro dominios espaciales. Este resultado es consistente con la anotación de la formación del hipocampo en el Atlas de referencia de Allen.
Por ejemplo, ITPKA y BCL11B muestran una expresión diferencial entre los dominios del ángulo de Ammon y se expresan altamente en CA1sp como se esperaba. Los marcadores moleculares CA2 del hipocampo conocidos, como AMIGO2 y PCP4, se expresan específicamente en el dominio CA2sp identificado. Además, se descubrió que LRRTM4, que media el desarrollo de sinapsis excitadoras en las células granulares del giro dentado, se expresa específicamente en la región DG-sg identificada. Además de estas estructuras tisulares conocidas, STAGATE identificó una serie de dominios espaciales bien separados y reveló sus patrones de expresión genética espacial mediante análisis de expresión diferencial. el dominio dentro del hipocampo, excepto las estructuras "en forma de cordón" y "en forma de flecha" (dominio 2), exhibió una fuerte expresión de los marcadores genéticos de los astrocitos DDN y CAMK2A. El dominio que rodea el hipocampo (dominio 7) expresa muchos marcadores genéticos asociados con oligodendrocitos, como TRF y MOBP. Además, también se observaron patrones de expresión espacial significativos en los dominios espaciales 3 y 4, con expresión dominante de ENPP2 y NWD2, respectivamente.
Estos resultados demuestran que STAGATE puede analizar la heterogeneidad espacial y revelar aún más patrones de expresión espacial. También probamos STAGATE en cortes de hipocampo de ratón analizados mediante tecnología Slide-seq y 10x Visium. Como versión inicial de Slide-seqV2, la sensibilidad de detección de transcripción de Slide-seq es relativamente baja. STAGATE representa bien las estructuras de tejido conocidas, excepto CA2sp, en datos de Slide-seq y datos de Visium 10x, respectivamente.
También se validó el desempeño de STAGATE en la identificación de la estructura tisular del bulbo olfatorio de ratón, un modelo de tejido con organización laminar ampliamente utilizado. STAGATE se probó por primera vez en un conjunto de datos ST generado por Stereo-seq a partir de tejido del bulbo olfatorio de ratón. Stereo-seq es una tecnología ómica espacial emergente que puede lograr una resolución espacial subcelular a través de chips de matriz con patrones de nanoesferas de ADN. Los datos utilizados aquí se clasifican a nivel de resolución celular (~ 14 μm). El tejido en capas del bulbo olfatorio coronal del ratón se ha anotado en la imagen teñida con DAPI, incluida la corriente migratoria rostral (RMS), la capa de células granulares (GCL), la capa plexiforme interna (IPL), la capa de células mitrales (MCL), la capa plexiforme externa capa (EPL) y capa neural olfativa (ONL).
En comparación con los clústeres identificados por SCANPY, los clústeres identificados mediante incrustaciones STAGATE y SEDR reflejan mejor la organización en capas y se corresponden bien con las capas de anotaciones.
Es importante destacar que STAGATE identificó claramente el MCL histológico estenótico, lo que se verificó mediante la expresión del marcador de células mitral GABRA1.
STAGATE también se aplicó a la sección del bulbo olfatorio del ratón analizada por SlideseqV2, y se encontró que el dominio espacial identificado por STAGATE era muy consistente con la anotación del Allen Reference Atlas del bulbo olfatorio coronal del ratón.
Específicamente, en comparación con los grupos generados por SCANPY y SEDR, STAGATE identificó dos dominios espaciales correspondientes a la capa granular del bulbo olfatorio accesorio (AOB) y el bulbo olfatorio accesorio (AOBgr) respectivamente
Por ejemplo , FXYD6 en el dominio estructural AOB identificado mostró expresiones fuertes, lo que fue consistente con sus experimentos de inmunohistoquímica. El marcador de células de la granulosa ATP2B4 muestra una fuerte expresión en el dominio AOBgr identificado. STAGATE también identificó estructuras estenóticas del MCL con expresión dominante del marcador de células mitrales GABRA1. Además, STAGATE identificó una subpoblación espacial GCL denominada GCL_1 que expresa predominantemente NRGN. NRGN es un gen de riesgo bien documentado para la esquizofrenia, lo que significa que este dominio está asociado con la función cognitiva.
Además, se descubrió que STAGATE representa la trayectoria espacial entre los bulbos olfativos del ratón (de AOBgr a RMS y ONL) en gráficos UMAP y PAGA. En general, estos resultados ilustran la capacidad de STAGATE para identificar estructuras tisulares y revelar su organización a partir de datos ST en diferentes resoluciones espaciales.
A continuación, probamos si STAGATE podría proporcionar información sobre cortes que incluían tejidos biológicamente más complejos, como cerebros completos. Aplique STAGATE a un conjunto de datos de Visium 10x que representa la expresión espacial en secciones coronales del cerebro del ratón.
Por ejemplo, la asignación de grupos de SCANPY no logró identificar la estructura "similar a un cordón" (el cuerno de Ammón) y la estructura "similar a una flecha", la circunvolución dentada dentro del hipocampo. Además, SEDR sólo puede suavizar los límites de los dominios y no puede delinear pequeños dominios espaciales. La aplicación directa de STAGATE aporta algunas mejoras en el reconocimiento del dominio espacial. Específicamente, en el hipocampo, STAGATE sin un módulo de detección de tipo celular identificó las regiones CA1 (dominio 17) y CA3 (dominio 19) del cuerno de Ammon, pero no describió la estructura del giro dentado.
Para datos ST que contienen tipos de células heterogéneos con baja resolución espacial, STAGATE con un módulo de reconocimiento de tipo de célula puede aprender mejor las similitudes espaciales. Específicamente, el proceso de agrupación previa se basa en el algoritmo de Louvain con un parámetro de resolución pequeño (la configuración predeterminada es 0,2). Como era de esperar, el uso de un módulo de tipo de unidad facilita la identificación de dominios espaciales. STAGATE identificó el cuerno de Ammon y las estructuras de la circunvolución dentada en el hipocampo y delineó aún más los dominios espaciales CA1 (dominio 17) y CA3 (dominio 20) del cuerno de Ammon. Además, STAGATE representa mejor la estructura de capas de las regiones corticales (dominios 0, 4 y 12). En particular, también se descubrió que el módulo de reconocimiento de tipo de célula mejora significativamente la separación de estructuras de tejido en gráficos UMAP, mientras que SEDR y STAGATE sin el módulo de reconocimiento de tipo de célula se parecen más a versiones suavizadas del método no espacial SCANPY.
Evaluamos además si el uso del mecanismo de atención realmente ayuda a caracterizar mejor las similitudes heterogéneas entre puntos adyacentes. Al visualizar la capa de atención organizando los nodos según su posición espacial y coloreando los bordes según su peso, se descubrió que el mecanismo de atención por sí solo puede delinear los límites de las principales estructuras organizativas, como la corteza, el hipocampo y el mesencéfalo. >
La combinación del mecanismo de atención y el módulo de percepción del tipo de célula mejora la delineación de límites estructurales y revela aún más similitudes espaciales dentro de pequeños dominios espaciales. Por ejemplo, en el hipocampo, STAGATE aprende de forma adaptativa similitudes espaciales dentro del cuerno de Ammón y la estructura del giro dentado. En general, estos resultados demuestran la importancia de los mecanismos de atención y los módulos de detección de tipos de células para describir la similitud entre puntos adyacentes.
STAGATE puede eliminar ruido y estimar la expresión génica.
El análisis empleó STAGATE para reducir el ruido en el conjunto de datos DLPFC para visualizar mejor los patrones espaciales de genes. Comparación de la expresión de las seis capas de genes marcadores de los datos originales con los identificados por STAGATE en DLPFC parte 151676
Como era de esperar, los identificados por STAGATE muestran claramente la expresión de los marcadores de estas capas. Enriquecimiento laminar. Por ejemplo, después de la eliminación del ruido, el gen ATP2B4 mostró una expresión diferencial en las capas 2 y 6, lo que coincide con los resultados informados anteriormente, mientras que su expresión espacial original estaba completamente codificada. Validamos el enriquecimiento laminar revelado por STAGATE según los datos publicados de hibridación in situ (ISH) del Allen Human Brain Atlas.
Además, la comparación de la expresión original y la expresión sin ruido de STAGATE utilizando gráficos de violín mostró que STAGATE mejoró el patrón espacial de los genes marcadores de capa.
En particular, STAGATE se obtuvo en la sección 151507 de DLPFC y logró resultados similares. actuación. En general, estos resultados demuestran la capacidad de STAGATE para reducir el ruido y mejorar los patrones de expresión espacial. Además, el rendimiento de imputación de STAGATE se comparó con cuatro algoritmos de imputación de secuencia de ARN unicelular ampliamente utilizados en términos de experimentos de submuestra, y mostró su superioridad tanto en la eficiencia de imputación como en la preservación de patrones de expresión espacial.
Aplicamos STAGATE a datos ST pseudo-3D construidos alineando los puntos de la estructura "en forma de cordón" en siete secciones del hipocampo perfiladas por Slide-seq
En cortes adyacentes agregar bordes adyacentes entre STAGATE representa claramente la estructura organizacional conocida, y los puntos tienden a agruparse por su estructura espacial en lugar de por el ID de corte en el gráfico UMAP
Mediante los genes marcadores conocidos, estructuras de tejido validadas identificadas con base en STAGATE , incluidos ITPKA21, BCL11B22, AMIGO223 y LRRTM4. Estos resultados demuestran que STAGATE puede ayudar a reconstruir modelos de tejido en 3D y extraer con precisión patrones de expresión en 3D combinando información espacial en 3D.
La identificación precisa de dominios espaciales y la posterior extracción de genes expresados espacialmente son cruciales para comprender la organización de los tejidos y las funciones biológicas. Aquí, los autores desarrollan STAGATE, un método de identificación de dominio espacial rápido y fácil de usar que se puede integrar perfectamente en flujos de trabajo de análisis estándar tomando como entrada el objeto "anndata" del paquete SCANPY.
STAGATE convierte información de ubicación espacial en SNN y además adopta un codificador automático de atención de gráficos para integrar SNN y perfiles de expresión. El rendimiento de STAGATE se probó en diferentes datos ST generados por diferentes plataformas con diferentes resoluciones espaciales. Se descubrió que STAGATE revela con precisión la organización laminar del DLPFC y el bulbo olfativo del ratón. Además, STAGATE identifica claramente la organización conocida del hipocampo y revela sus dominios espaciales. La capacidad de STAGATE para eliminar el ruido de la expresión también se demostró comparándolo con imágenes de ISH. Finalmente, se ilustra la capacidad de STAGATE para mitigar los efectos de procesamiento por lotes entre partes consecutivas y extraer dominios de expresión 3D en modelos ST pseudo-3D.
El éxito de STAGATE se debe principalmente al uso del mecanismo de atención de gráficos para considerar la información espacial vecina. Sin embargo, el STAGATE actual se centra en la integración de perfiles de expresión e información espacial y no utiliza imágenes histológicas. Los métodos existentes que toman imágenes histológicas como entrada, como stLearn, no logran un buen rendimiento en las comparaciones analíticas. stLearn utiliza redes neuronales previamente entrenadas para extraer características de las imágenes y calcula además la distancia morfológica mediante la distancia del coseno. Se cree que este enfoque predefinido no aprovecha la flexibilidad del aprendizaje profundo y que el mecanismo de atención puede ampliarse para integrar de manera fácil y adaptativa características de imágenes histológicas.
STAGATE puede manejar datos ST en diferentes resoluciones espaciales. Generalmente, STAGATE funciona mejor para datos ST con resolución celular o subcelular debido a la alta similitud entre puntos adyacentes. Para técnicas con resolución espacial relativamente baja, se introduce un módulo de reconocimiento de tipo de célula para describir similitudes espaciales heterogéneas. Sin embargo, una posible limitación de STAGATE es que hace que los puntos adyacentes de una sección sean iguales a los que pertenecen a secciones diferentes. El trabajo futuro puede emplear redes heterogéneas para caracterizar mejor los modelos de tejido 3D.
Además, STAGATE es capaz de detectar genes espacialmente variables dentro de dominios espaciales. Los algoritmos de identificación de genes espacialmente variables existentes, como SPARK-X (puede consultar mi artículo Análisis de reducción de ruido de datos de células individuales 10X (transcripción espacial 10X) (Imputación) SAVER-X) no consideran la información del dominio espacial, lo que hace que la identificación se exprese espacialmente específicamente. genes dentro de pequeñas estructuras tisulares se vuelve difícil. Para ilustrar este punto, se compararon genes expresados diferencialmente del dominio espacial STAGATE con los de SPARK-X en un conjunto de datos Slide-seqV2 de tejido del bulbo olfatorio de ratón. Específicamente, STAGATE identificó 959 genes de dominio específico y SPARK-X buscó 2479 genes espacialmente variables con FDR lt;0,01. **El análisis encontró que muchos de los genes identificados por SPARK-X no exhibieron diferencias significativas entre los dominios espaciales**
Además, la autocorrelación espacial, medida por la estadística I de Moran, fue significativamente diferente entre los conjuntos de genes identificados. por STAGATE y Los 1000 genes principales de SPARK-X son similares. Hubo una superposición considerable en los conjuntos de genes identificados por los dos métodos, pero SPARK-X ignoró algunos genes específicos de estructuras de tejido pequeñas. Por ejemplo, el marcador de células mitrales GABRA1 mostró un enriquecimiento significativo en el dominio MCL, pero SPARK-X no identificó su patrón espacial (FDR = 0,018). Además, el gen NEFH también mostró una fuerte expresión en el dominio MCL, mientras que SPARK-X lo ignoró (FDR=1). Esperamos que STAGATE pueda facilitar la identificación de tejidos y el descubrimiento de los marcadores genéticos correspondientes.
La vida es buena y es aún mejor contigo