Estadísticas descriptivas para el análisis de datos
El significado de estadística descriptiva: "Las estadísticas descriptivas son estadísticas resumidas que describen o resumen cuantitativamente las características de una colección de información".
Las estadísticas descriptivas son un tipo de estadística resumida que utiliza Se utiliza para describir o resumir cuantitativamente las características de un conjunto de información.
Estadística inferencial: Establece un modelo matemático basado en la forma de los datos para dar cuenta de su aleatoriedad e incertidumbre, infiriendo así los pasos y matrices del estudio.
Este artículo presenta principalmente estadísticas descriptivas, que se pueden dividir en tendencia central y tendencia discreta.
1. Medida de tendencia central
Puede representar una determinada característica de la población, indicando la * * * homogeneidad y nivel general del objeto en estudio bajo determinadas condiciones espacio-temporales. .
1. Método
Los datos cualitativos representan el número con mayor frecuencia en un conjunto de datos.
Ventajas: no se ve afectado por valores extremos; cuando el dato tiene una tendencia central obvia, es representativo;
Desventajas: falta de unicidad.
2. Punto cuantil
También conocido como cuantil, se refiere a dividir el rango de distribución de probabilidad de una variable aleatoria en varios puntos numéricos iguales, como la mediana (es decir, método de bisección). , cuartiles y percentiles.
2.1 Mediana
Datos cuantitativos, que indican el valor del medio (la paridad se trata de forma diferente).
Ventajas: no se ve afectado por valores extremos; desventajas: no es lo suficientemente sensible.
2.2 Cuartiles
El primer cuartil (Q1), también conocido como “cuartil pequeño”, es igual a todos los valores de la muestra en orden descendente percentil 25.
El segundo cuartil (Q2), también llamado mediana, es igual al percentil 50 de todos los valores de la muestra (en orden descendente).
El tercer cuartil (Q3), también llamado "cuartil mayor", es igual al percentil 75 de todos los valores de la muestra en orden descendente.
La brecha entre el tercer cuartil y el primer cuartil también se llama distancia intercuartil.
3. Promedio
3.1 Media aritmética:
Ventajas: aprovechar al máximo todos los datos y gran aplicabilidad. Desventajas: vulnerable a valores extremos.
3.2 Promedio ponderado: Calcula el promedio en función de la relación de peso.
3.3 Media geométrica
Implementación de Python:
Segunda tendencia discreta (medida de dispersión)
Muy pobre
La diferencia max(x)-min(x) entre el valor máximo y el valor mínimo en un conjunto de datos numéricos refleja el rango de datos de la muestra numérica.
2. Varianza y desviación estándar
La varianza se utiliza para medir el grado de dispersión de los datos. Los más comunes incluyen la varianza de la población y la varianza de la muestra, y los métodos de cálculo son similares. La desviación estándar es la raíz cuadrada de la varianza.
3. La diferencia promedio
es la media aritmética del valor absoluto de la desviación entre cada valor de datos en el conjunto de datos y su media aritmética.
4. Diferencia de puntuación
Cuanto menor sea el valor, más concentrados serán los datos, mayor será el valor y más discretos serán los datos. La dispersión de cuartiles comúnmente utilizada es: dispersión de cuartiles = (tercer cuartil - primer cuartil)/2.
5. Ratio heterogéneo
Cuanto mayor sea el ratio de heterocedasticidad, mayor será la proporción de la frecuencia de arreglos heterogéneos en la frecuencia total, y peor será la representatividad de la moda; la relación de heterocedasticidad. Cuanto menor sea la proporción de frecuencias de matriz no singular con respecto a la frecuencia total, mejor representativo será el patrón.
6. Coeficiente de dispersión
El coeficiente de dispersión, también conocido como coeficiente de variación, está representado por CV (coeficiente de variación). Coeficiente de variación: La relación entre la desviación estándar y la media. Cuanto menor sea el coeficiente de dispersión, menor será el grado de dispersión de los datos.
Implementación de Python:
Tercero, patrón de distribución
1.
El coeficiente de sesgo también se llama coeficiente de desviación. El coeficiente de asimetría mide el grado de sesgo como la relación entre la diferencia entre la media y la mediana y la desviación estándar. El coeficiente de asimetría está representado por SK: el coeficiente de asimetría es menor que 0 porque el valor promedio está a la izquierda de la moda, lo que también se denomina desviación negativa. El coeficiente de asimetría es mayor que 0 porque la media está a la derecha de la moda, que es una distribución asimétrica a la derecha, también llamada asimetría positiva.
El coeficiente de asimetría se basa en las propiedades respectivas de la moda, la mediana y la media, y mide la asimetría comparando la moda o la mediana con la media.
2. Coeficiente de curtosis (kurtosis)
El coeficiente de curtosis es un indicador que se utiliza para reflejar la pendiente o planitud de la parte superior de la curva de distribución de frecuencia y se utiliza para medir los valores atípicos. de los datos. Cuanto mayor sea el coeficiente de curtosis, más valores extremos habrá en el conjunto de datos. Bajo distribución normal, el coeficiente de curtosis es 3. & gtUn coeficiente de curtosis de 3 indica que las observaciones están más concentradas y tienen una cola más corta que la distribución normal & ltUn coeficiente de curtosis de 3 indica que las observaciones no están tan concentradas y tienen una cola más larga que la distribución normal, similar a una; Distribución uniforme rectangular. La desviación estándar del coeficiente de curtosis se utiliza para determinar la normalidad de la distribución. Para probar la normalidad se utilizó la relación entre el coeficiente de curtosis y su error estándar. Si el valor absoluto de esta relación es mayor que 2, se rechazará la normalidad.