Herramientas: Análisis de datos (Estadísticas)
Métodos: estadística descriptiva, estadística inferencial
Datos: datos numéricos y datos categóricos (categoría, texto, no se pueden calcular)
Estadísticas descriptivas de datos categóricos: frecuencia Estadísticas, porcentaje de frecuencia
Estadísticas descriptivas de datos numéricos: medidas estadísticas (promedio: cuando las diferencias numéricas son grandes, el promedio se ampliará o disminuirá, mediana, moda), gráficos p>
Cuantil : Primer cuantil: cuantil 25, Segundo cuantil: Mediana, Tercer cuantil: cuantil 75
Varianza: Descripción Dispersión, volatilidad de los datos
Desviación estándar: La varianza es el cuadrado No existe. "cuadrado" en los negocios reales, por lo que se necesita la raíz cuadrada, que es la desviación estándar, que se puede dividir en -
Estandarización de datos: Z-Score, coloca dos conjuntos de datos en una dimensión comparable, como el volumen de ventas y la temperatura
Dimensión: unidad; al observar la relación entre la fecha y ciertos datos comerciales, la fecha se puede descomponer en Semana y día de la semana
Teorema de Chebyshev: Hay al menos 75 datos, ubicados dentro de 2 desviaciones estándar de la media hay al menos 89 datos, ubicados dentro de 3 desviaciones estándar de la media hay al menos 96 Los datos están dentro de 5 desviaciones estándar de la media; >
Visualización: diagrama de caja, histograma (simétrico, de paredes empinadas, en zigzag, en isla, sesgado, bimodal)
Teorema de Chebyshev V2.0
En la distribución normal, en al menos 68 datos están ubicados dentro de 1 desviación estándar de la media
En la distribución normal, al menos el 95 % de los datos están dentro de 2 desviaciones estándar de la media
En la distribución normal , al menos el 99,8% de los datos están dentro de 3 desviaciones estándar de la media
Probabilidad
Evento: {Cara, cruz}
Probabilidad: 50 cada uno
Complemento, intersección, unión
Diagrama de Venn
P(A∪B)=P(A) P(B)-P(A∩B)
P(A|B)=P(A∩B)/P (B)
P(A|B)=P(A)
Bayes ' teorema: El resultado A ya se produjo. ¿Qué probabilidad hay de inferir la causa real a través del resultado A?
Tres preguntas
1. Entre las personas que participan en actividades de marketing, solo 30 son mujeres. ¿Significa esto que a las mujeres no les gusta participar en actividades?
2. Hay dos colores de taxis en una determinada ciudad. La proporción de mercado de taxis azules y taxis verdes es de 15:85. Un taxi se vio involucrado en un accidente de atropello y fuga por la noche cuando un testigo reconoció que el taxi era azul. Después de probar "azul-verde" en el mismo entorno, encontramos: 80 casos fueron identificados correctamente, 20 casos fueron incorrectos, ¿cuál es la posibilidad de que realmente sea un auto azul?
3. Supongamos que entre los 1000 mensajes de texto normales, hay 2 mensajes de texto que contienen "Macao Casino", y entre los mensajes de texto spam, hay 400 mensajes de texto que contienen "Macao Casino". Ahora se recibe un nuevo mensaje de texto sin navegar por el contenido, asumiendo una probabilidad normal de 50. Ahora, después de analizar el contenido del mensaje de texto, encontré la palabra Macau Casino. ¿Cuál es la probabilidad de que sea un mensaje de texto no deseado?