Varias formas de análisis de visualización de datos.
La visualización de datos es una parte importante del trabajo del científico de datos. En las primeras etapas de un proyecto, a menudo realizará un análisis de datos exploratorio (EDA) para comprender mejor los datos. La creación de métodos de visualización realmente puede ayudar a que las cosas sean más claras y fáciles de entender, especialmente con conjuntos de datos grandes y de alta dimensión. Al final de un proyecto, es importante presentar el resultado final de una manera clara, concisa y llamativa porque su audiencia a menudo son clientes no técnicos para que puedan entenderlo.
Gráficos de dispersión
Los diagramas de dispersión son excelentes para mostrar la relación entre dos variables porque puedes ver directamente la distribución original de los datos. Como se muestra en la imagen a continuación, también puede ver las relaciones entre diferentes grupos de datos mediante un código de colores simple. ¿Quieres visualizar la relación entre tres variables? ¡ningún problema! Sólo necesita utilizar otro parámetro, como el tamaño en puntos, para codificar la variable.
Gráfico de líneas
Usar un gráfico de líneas es bueno cuando puedes ver que una variable cambia significativamente con otra variable; por ejemplo, tienen una covarianza grande. Podemos ver claramente que muchas cosas han cambiado con el tiempo en todas las líneas principales. Dibujarlos en puntos dispersos sería extremadamente confuso y difícil de entender y ver realmente lo que está sucediendo. Un gráfico de líneas es perfecto para esta situación porque básicamente nos brinda un resumen rápido de la covarianza de dos variables (porcentaje y tiempo). Además, podemos agrupar por codificación de colores.
Histograma
Los histogramas son muy útiles para ver (o explorar realmente) la distribución de puntos de datos. Eche un vistazo al histograma que hicimos a continuación usando frecuencia y coeficiente intelectual. Podemos ver claramente la agrupación hacia el medio y podemos ver cuál es el valor mediano. También podemos ver que tiene una distribución normal. El uso de un histograma proporciona una imagen clara de las diferencias relativas entre los grupos de frecuencias. El uso de grupos (discretización) realmente nos ayuda a ver un "panorama más amplio". Sin embargo, cuando utilizamos todos los puntos de datos sin grupos discretos, puede causar mucho ruido en la visualización, lo que dificulta ver lo que realmente está sucediendo.
Gráfico de barras
Los histogramas son muy efectivos cuando intentas visualizar datos categóricos con una pequeña cantidad de categorías (quizás menos de 10). Si tenemos demasiadas categorías, estos histogramas estarán muy desordenados y serán difíciles de entender. Los histogramas son buenos para categorizar datos porque puede ver fácilmente las diferencias entre categorías basadas en columnas (como el tamaño, las categorías también son fáciles de ordenar y codificar por colores); Veremos tres tipos diferentes de gráficos de barras: regulares, agrupados y apilados.
Gráfico de caja
Antes analizamos los histogramas, y los histogramas son una buena forma de visualizar la distribución de variables. ¿Pero qué pasa si necesitamos más información? ¿Quizás queramos ver la desviación estándar más claramente? ¿Quizás la mediana y la media son muy diferentes y tenemos muchos valores atípicos? ¿Qué pasa si existe tal compensación que muchos de los valores se concentran en un lado?
Aquí es donde los diagramas de bloques son adecuados. El diagrama de bloques nos proporciona toda la información anterior. Beijing Computer Training cree que la parte inferior y superior del marco de línea continua son siempre uno y tres cuartiles (como el 25% y el 75% de los datos), y las líneas horizontales en el cuadro son siempre dos cuartiles (mediana). Líneas en forma de bigotes (discontinuas y terminales) sobresalen de este cuadro, mostrando el rango de los datos.