¿Qué es el análisis de regresión logística?
El análisis de regresión logit se utiliza para estudiar el impacto de X en Y, y no hay ningún requisito para que el tipo de datos de Y deba ser datos categóricos y, de acuerdo con la cantidad de opciones en Y, use el correspondiente. método de análisis de datos. El análisis de regresión logit generalmente se puede dividir en tres categorías, a saber, regresión logit binaria, regresión logit de clasificación múltiple y regresión logit ordenada. Las diferencias entre los tres tipos de regresión logit son las siguientes:
Tome el logit binario. regresión como ejemplo para ilustrar:
Regresión logit binaria:
Descripción básica
El análisis de regresión logit binaria se utiliza para estudiar el impacto de X en Y, donde X suele ser información cuantitativa (si, sí y no, etc.
2. Procesamiento de datos
(1) Si X son datos categóricos, como género o nivel educativo, etc. Luego, primero debe procesarlas como variables ficticias virtuales, utilizando la función "Procesamiento de datos" - "Generar variables" de SPSSAU. La operación es como se muestra a continuación:
(2) La variable dependiente Y solo puede incluir los números 0 y 1. Si los datos originales de la variable dependiente no son así, entonces se requiere codificación de datos, configure a 0 y 1, y utilice la función "Procesamiento de datos" de SPSSAU - "Codificación de datos", la operación es la siguiente:
3. Carga de datos de SPSSAU
(1) Después de iniciar sesión Ingrese a la cuenta, ingrese a la página de SPSSAU, haga clic en "Cargar datos" en la esquina superior derecha. Simplemente cargue los datos procesados haciendo "haga clic para cargar el archivo".
Análisis SPSSAU
Antecedentes: Estudia los factores que influyen en los usuarios para comprar una determinada marca de portátil, donde 0 representa no y 1 representa sí (solo para análisis de casos).
(1) Resumen básico del análisis de regresión logit binaria
Utilice el precio, la preferencia de marca y el rendimiento como variables independientes, y si se debe comprar una determinada marca de computadora portátil como variable dependiente. Análisis de regresión logit, como se puede ver en la tabla anterior, un total de 265 muestras participaron en el análisis y no faltaron datos.
Primero, analice la efectividad general del modelo. De la tabla anterior, podemos ver que: la hipótesis original de la prueba del modelo aquí es: si se deben colocar las variables independientes (precio, preferencia de marca, rendimiento). ) en el modelo en dos casos: La calidad es la misma; el valor p aquí es menor que 0.05, lo que significa que se rechaza la hipótesis original, es decir, al construir el modelo esta vez, las variables independientes ingresadas son válidas. Y la construcción del modelo esta vez es significativa.
(3) Resumen de los resultados del análisis de regresión logit binaria
Como se puede ver en la tabla anterior, los tres elementos de precio, preferencia de marca y rendimiento son variables independientes, y si comprar Una determinada marca de computadora portátil se utiliza como variable dependiente para el análisis de regresión logit binaria. La fórmula del modelo es: ln(p/1-p)=-9,900 3,663*precio-2,156*preferencia de marca 4,090*rendimiento (donde p. representa si se debe comprar una determinada marca de computadora portátil. La probabilidad de que una computadora sea 1, 1-p representa que la probabilidad de comprar una computadora portátil de una determinada marca es 0). El análisis detallado final muestra que:
El valor del coeficiente de regresión del precio es 3.663, y muestra significancia en el nivel 0.05 (z=2.419, p=0.016lt; 0.05), lo que significa que el precio tendrá una impacto sobre la compra de una determinada marca Las computadoras portátiles producen una relación positiva significativa. Y el índice de probabilidades (valor OR) es 38,964, lo que significa que cuando el precio aumenta en una unidad, el cambio (aumento) en la posibilidad de comprar una determinada marca de computadora portátil es 38,964 veces.
El valor del coeficiente de regresión de la preferencia de marca es -2,156, pero no muestra significancia (z=-1,583, p=0,113gt; 0,05), lo que significa que la preferencia de marca no afecta la compra de A. Cierta marca de computadoras portátiles tiene una relación de impacto.
El valor del coeficiente de regresión del rendimiento es 4,090 y muestra significancia en el nivel 0,05 (z=3,346, p=0,001lt; 0,05), lo que significa que el rendimiento tendrá un impacto significativo a la hora de comprar un cierta marca de computadora portátil influye positivamente en la relación. Y el índice de probabilidades (valor OR) es 59,750, lo que significa que cuando el rendimiento aumenta en una unidad, el cambio (aumento) en la posibilidad de comprar una determinada marca de computadora portátil es 59,750 veces.
El análisis resumido muestra que el precio y el rendimiento tendrán un impacto positivo significativo a la hora de comprar una determinada marca de ordenador portátil. Sin embargo, la preferencia de marca no tendrá un impacto en la compra de una determinada marca de computadora portátil.
Además, la regresión Logit proporcionará tres valores de R cuadrado (R-cuadrado de McFadden, R-cuadrado de Cox & Snell y R-cuadrado de Nagelkerke). Valores pseudo R cuadrado. Cuanto mayor sea el valor, mejor, pero no puede expresar el grado de ajuste del modelo de manera muy efectiva y su significado es relativamente pequeño. Además, en la mayoría de los casos, los valores de estos tres indicadores lo serán. ser muy pequeño. Los investigadores no necesitan prestar demasiada atención a estos tres valores de indicadores. Generalmente, se puede informar cualquiera de los indicadores de valor R cuadrado.