Colección de citas famosas - Slogan de motivación - Control de calidad y filtrado de datos Chip-seq

Control de calidad y filtrado de datos Chip-seq

El valor de calidad de los datos fastq generados en la etapa inicial se basa en PHRED 64 (Illumina 1.3 y 1.4), y la versión actual usa PHRED 33 (Illumina 1.8+).

Al usar fastqc para el control de calidad, los resultados tienen varios problemas:

Principalmente para lecturas y conectores de baja calidad. Nota: si desea comparar diferentes muestras, la longitud de lectura antes y. después del filtrado Esto debe ser consistente para evitar introducir artefactos en las tasas de comparación (dos lecturas de diferentes longitudes no se pueden comparar juntas).

Si el fragmento de ADN es más corto que la longitud de lectura secuenciada, la lectura resultante contendrá secuencias adaptadoras posteriores. Sin embargo, la secuencia del conector puede afectar el resultado de la alineación (pero generalmente el conector es una secuencia repetitiva, algunas de las cuales son difíciles de alinear con el genoma, pero es mejor eliminarla que transportarla).

Los distintos programas de filtrado tendrán configuraciones de parámetros relacionados con la rigurosidad del adaptador, como el número mínimo de bases superpuestas y el número máximo de discrepancias entre lecturas y adaptadores. Al establecer un valor estricto más pequeño, se garantiza que será el más estricto y puede detectar la mayoría de las uniones.

Por ejemplo, este parámetro de trim_galore (el valor predeterminado es muy estricto: valor 1):

La mayoría de los datos de ChIP-seq son cortos y largos, por lo que no es necesario eliminarlos. datos de baja calidad. Sin embargo, si una gran cantidad de bases en el gráfico fastqc tienen una calidad significativamente reducida, es necesario eliminarlas.

El método de eliminación tradicional es: para cada lectura, se detecta que el valor Q es inferior a un cierto umbral (como Q

Además, si hay varios conjuntos de datos de diferentes longitudes, puede especificar directamente una longitud fija (por ejemplo, para comparar datos ChIP-seq de un solo extremo de 50 nt y 100 nt, puede cortar todas las lecturas a 50 nt)

Si se usa para analizar el La unión específica del alelo X o Y requiere muchos SNV confiables, por lo que se requiere un valor Q más alto para la detección y los criterios de detección son más estrictos.

No se recomienda utilizar el filtrado de ventana deslizante cuando se ejecuta. Todos los parámetros se enumeran para referencia y aprendizaje. Entre ellos se encuentra el comando -fastcq, y también hay un parámetro: -j que es multiproceso y el valor predeterminado es un hilo (debe basarse en python3)

<. p>Además, se utilizará para cada hilo. Cada muestra creará automáticamente un directorio con el mismo nombre para almacenar sus datos correspondientes.

Observe el cambio en el volumen de datos después del filtrado. es de buena calidad, no hay:

Ver 10 después del filtrado GC cambios de muestras:

.