Proceso de análisis de datos
Preparación de datos
Obtener datos (rastreadores, almacenes de datos), validar datos, limpiar datos (valores faltantes, valores atípicos, spam, normalización, registros duplicados, valores especiales, fusionar conjuntos de datos) , use Python para leer archivos csv o txt para facilitar las operaciones de archivos de datos (e/s y procesamiento de cadenas de archivos, separación por comas), muestreo (cuando los datos son grandes). las claves son aleatorias), almacenadas y archivadas.
Observación de datos
Variable única: gráfico de puntos y gráfico de fluctuación; estimación de histograma y densidad del núcleo; dos variables: gráfico de dispersión, suavizado de loess, análisis residual, gráficos logarítmicos; y sesgado; multivariado: mapas de colores falsos, mapas en mosaico, mapas paralelos a la izquierda.
Modelado de datos
Cálculo y estimación (equilibrio de viabilidad y consumo de costos), escalamiento de modelos de parámetros (escalamiento de problemas de optimización de dimensiones), establecimiento de modelos probabilísticos (en comparación con modelos conocidos Binomial, Gaussiano, potencia ley, geometría, distribución de Poisson).
Tecnología de minería de datos
Elija algoritmos de aprendizaje automático apropiados (simulación de Monte Carlo, cálculo de similitud, análisis de componentes principales), considere usar Map/Reduce para big data y saque conclusiones y extraiga el gráfico final.