¿Cuál es el contenido del procesamiento y limpieza de datos de la medicina tradicional china?
1. Seleccione un subconjunto.
En el proceso de análisis de datos, la cantidad de datos puede ser muy grande, pero no todas las columnas tienen valor de análisis. En este momento, es necesario seleccionar un subconjunto útil de estos datos para el análisis, mejorando así el valor y la eficiencia del análisis.
2. Cambie el nombre de la columna. Durante el análisis de datos, algunos nombres de columnas y datos se confunden o son ambiguos fácilmente.
3. Procesamiento de valores faltantes.
Es probable que este valor faltante exista en los datos obtenidos, lo que afectará los resultados del análisis.
4. Conversión de tipos de datos.
Para evitar que se importen datos, Python los forzará a ser un tipo de objeto, pero este tipo de datos no es propicio para la operación y el análisis durante el proceso de análisis.
Necesidad de saber:
La limpieza de datos se refiere al proceso final de descubrir y corregir errores identificables en archivos de datos, incluida la verificación de la coherencia de los datos, el manejo de valores no válidos y valores faltantes, etc. . A diferencia de la revisión del cuestionario, la limpieza de datos después de su ingreso generalmente se realiza mediante computadoras y no manualmente.
Método de limpieza de datos: en términos generales, la limpieza de datos es el proceso de simplificar la base de datos, eliminar registros duplicados y convertir las partes restantes a un formato estándar aceptable.
El modo estándar de limpieza de datos es ingresar datos en un procesador de limpieza de datos, "limpiar" los datos a través de una serie de pasos y luego generar los datos limpios en el formato deseado. La limpieza de datos aborda problemas como valores faltantes, valores fuera de límites, inconsistencias de código, duplicación de datos, etc. desde los aspectos de precisión, integridad, coherencia, unicidad, puntualidad y validez de los datos.