Regresión múltiple
| Comando: | Estadística   Regresión   Regresión múltiple | 
Descripción
La regresión múltiple es un método estadístico utilizado para examinar la relación entre una variable dependiente Y y una o más variables independientes Xi. Los parámetros o coeficientes de regresión bi en la ecuación de regresión
Se estiman mediante el método de mínimos cuadrados. En este método, se minimiza la suma de los cuadrados de los residuos entre el plano de regresión y los valores observados de la variable dependiente. La ecuación de regresión representa un (hiper)plano en un espacio de k+1 dimensiones, donde k es el número de variables independientes X1, X2, X3,... Xk, más una dimensión para la variable dependiente Y .
Entrada requerida
En el cuadro de diálogo Regresión múltiple se debe ingresar lo siguiente:
Variable dependiente
La variable cuyos valores desea predecir.
Variables independientes
Seleccione al menos una variable que prevea que influya o prediga el valor de la variable dependiente. También se denominan variables predictoras o explicativas.
Pesos
Opcionalmente, seleccione una variable que contenga los pesos relativos que deben asignarse a cada observación (para la regresión de mínimos cuadrados Múltiple ponderada). Seleccione la variable ficción. '*** AutoWeight 1/SD^2 ***' Para un procedimiento automático de regresión ponderada que corrige la heterocedasticidad (Neter et al., 1996). Esta variable ficticia aparece como el primer elemento en la lista desplegable de Ponderaciones.
Filtrar
Opcionalmente, ingrese un filtro de datos para incluir solo un subgrupo seleccionado de casos en el análisis.
Opciones
- Método: seleccione la forma en que se ingresarán las variables independientes en el modelo.
	- Introducir: introduce todas las variables en el modelo en un solo paso, sin marcar
- Adelante: ingrese variables significativas secuencialmente
- Hacia atrás: primero ingrese todas las variables en el modelo y luego elimine secuencialmente las variables no significativas
- Paso a paso: ingrese las variables significativas de manera secuencial; Después de ingresar una variable en el modelo, verifique y posiblemente elimine las variables que se volvieron no significativas.
 
- Introduzca la variable si P< Se introduce una variable en el modelo si su nivel de significancia asociado es menor que este valor P.
- Eliminar variable si P> Se elimina una variable del modelo si su nivel de significancia asociado es mayor que este valor P.
- Factor de Inflación de la Varianza (FIV) del Informe: opción para mostrar el Factor de Inflación de la Varianza en el informe. Un Factor de Inflación de la Varianza alto indica multicolinealidad de las variables independientes. La multicolinealidad se refiere a una situación en la que dos o más variables explicativas de un modelo de regresión múltiple presentan una relación lineal alta.
- Coeficientes de correlación de orden cero y simples: opción para crear una tabla con coeficientes de correlación entre la variable dependiente y todas las variables independientes por separado, y entre todas las variables independientes.
- Residuos: puede seleccionar una prueba opcional para la distribución normal de los residuos.
Resultados
Después de hacer clic Aceptar, los siguientes resultados se muestran en la ventana de resultados:
| Y dependiente | Grade_A | 
|---|
Regresión múltiple de mínimos cuadrados
| Método | Atrás | 
|---|---|
| Introducir variable si P< | 0.05 | 
| Eliminar variable si P> | 0.1 | 
| Tamaño muestral | 46 | 
|---|---|
| Coeficiente de determinación de R2 | 0.2449 | 
| R2 ajustado | 0.2098 | 
| Coeficiente de correlación múltiple | 0.4949 | 
| Desviación estándar residual | 11.9453 | 
Ecuación de regresión
| Variables independientes | Coeficiente | Error estándar | IC del 95 % | t | P | rparcial | rsemipartial | 
|---|---|---|---|---|---|---|---|
| (constante) | 8.0389 | 5.3064 | -2.6625 a 18.7403 | 1.5149 | 0.1371 | 
 | 
 | 
| Concentración | 0.1331 | 0.05506 | 0.02207 a 0.2442 | 2.4175 | 0.0199 | 0.3459 | 0.3204 | 
| Morfología | 0.3570 | 0.1848 | -0.01556 a 0.7296 | 1.9325 | 0.0599 | 0.2827 | 0.2561 | 
| Variables no incluidas en el modelo | 
|---|
| ATP | 
Análisis de varianza
| Fuente | GL | Suma de cuadrados | Media del cuadrado | 
|---|---|---|---|
| Regresión | 2 | 1990.2226 | 995.1113 | 
| Residuo | 43 | 6135.7121 | 142.6910 | 
| Razón F | 6.9739 | 
|---|---|
| Nivel de significancia | P=0.0024 | 
|    | Guardar valores predichos - Guardar residuos | 
En la ventana de resultados, se muestran las siguientes estadísticas:
Tamaño de la muestra: el número de registros de datos n
Coeficiente de determinación R2: es la proporción de la variación en la variable dependiente explicada por el modelo de regresión y una medida del ajuste del modelo. Puede variar de 0 a 1 y se calcula de la siguiente manera:
donde Y son los valores observados para la variable dependiente, $\bar{Y}$ es el promedio de los valores observados e Yest son los valores predichos para la variable dependiente (los valores predichos se calculan utilizando la ecuación de regresión).
R2-ajustado: es el coeficiente de determinación ajustado por el número de variables independientes en el modelo de regresión. A diferencia del coeficiente de determinación, el R2-ajustado puede disminuir si se introducen variables en el modelo que no contribuyen significativamente al ajuste del mismo.
o
Coeficiente de correlación múltiple: este coeficiente es una medida de qué tan estrechamente se agrupan los puntos de datos alrededor del plano de regresión y se calcula tomando la raíz cuadrada del coeficiente de determinación.
Cuando se analizan los resultados del análisis de regresión múltiple, generalmente se utiliza el coeficiente de determinación múltiple en lugar del coeficiente de correlación múltiple.
Desviación estándar residual: desviación estándar de los residuos (residuos = diferencias entre los valores observados y predichos). Se calcula de la siguiente manera:
La ecuación de regresión: los diferentes coeficientes de regresión bi con error estándar sbi , intervalo de confianza del 95%, valor t, valor P, coeficientes de correlación parcial y semiparcial rparcial y rsemiparcial.
- Si P es menor que el 0,05 convencional, se puede considerar que el coeficiente de regresión es significativamente diferente de 0 y la variable correspondiente contribuye significativamente a la predicción de la variable dependiente.
- Coeficiente de correlación parcial rparcial: la correlación parcial es la correlación entre una variable independiente y la variable dependiente después de que se han eliminado los efectos lineales de las otras variables tanto de la variable independiente como de la variable dependiente (la correlación de la variable con la variable dependiente, ajustada por el efecto de las otras variables en el modelo).
- Coeficiente de correlación semiparcial rsemiparcial (en SPSS, denominado correlación parcial): la correlación semiparcial es la correlación entre una variable independiente y la variable dependiente una vez eliminados los efectos lineales de las demás variables independientes únicamente de la variable independiente. La correlación semiparcial al cuadrado es la proporción de la varianza (única) explicada por la variable independiente, en relación con la varianza total de la variable dependiente Y.
- Opcionalmente, la tabla incluye el Factor de Inflación de la Varianza (FIV). Un factor de inflación de la varianza alto indica multicolinealidad de las variables independientes. La multicolinealidad se refiere a una situación en la que dos o más variables explicativas de un modelo de regresión múltiple presentan una relación lineal alta.
Variables no incluidas en el modelo: las variables no se incluyen en el modelo por dos posibles razones:
- Ha seleccionado un modelo escalonado y se eliminó la variable porque el valor P de su coeficiente de regresión estaba por encima del valor umbral.
- La tolerancia de la variable fue muy baja (menor a 0,0001). Esta tolerancia es el inverso del Factor de Inflación de la Varianza (FIV) y equivale a 1 menos la correlación múltiple al cuadrado de esta variable con todas las demás variables independientes de la ecuación de regresión. Si la tolerancia de una variable en la ecuación de regresión es muy baja, esta no puede evaluarse.
Análisis de varianza: la tabla de análisis de varianza divide la variación total de la variable dependiente en dos componentes: uno atribuible al modelo de regresión (denominado Regresión) y otro no (denominado Residuo). Si el nivel de significancia de la prueba F es bajo (menor a 0,05), se puede rechazar la hipótesis de que no existe una relación (lineal) y el coeficiente de correlación múltiple se puede considerar estadísticamente significativo.
Coeficientes de correlación de orden cero y simples: esta tabla opcional muestra los coeficientes de correlación entre la variable dependiente (Y) y todas las variables independientes Xi por separado, y entre todas las variables independientes.
Análisis de residuos
El análisis de regresión lineal múltiple asume que los residuos (las diferencias entre las observaciones y los valores estimados) siguen una distribución normal. Esta suposición puede evaluarse mediante una prueba formal o métodos gráficos.
Las diferentes pruebas formales para la distribución normal podrían no tener la potencia suficiente para detectar desviaciones de la distribución normal cuando el tamaño de la muestra es pequeño. Por otro lado, cuando el tamaño de la muestra es grande, el requisito de una distribución normal es menos estricto debido al teorema del límite central.
Por lo tanto, a menudo se prefiere evaluar visualmente la simetría y la agudeza de la distribución de los residuos utilizando el histograma, el diagrama de caja y bigotes o el diagrama normal.
Para ello, haga clic en el hipervínculo 'Guardar residuos' en la ventana de resultados. Esto guardará los valores residuales como una nueva variable en la hoja de cálculo. Posteriormente, podrá usar esta nueva variable en los diferentes gráficos de distribución.
Repetir el procedimiento
Si desea repetir el procedimiento de regresión múltiple, posiblemente para agregar o quitar variables en el modelo, entonces sólo tiene que presionar la tecla de función F7 el cuadro de diálogo volverá a aparecer con las entradas y selecciones anteriores (ver Cuadro de diálogo Recuperar).
Literatura
- Altman DG (1991) Practical statistics for medical research. London: Chapman and Hall.
- Armitage P, Berry G, Matthews JNS (2002) Statistical methods in medical research. 4th ed. Blackwell Science.
- Neter J, Kutner MH, Nachtsheim CJ, Wasserman W (1996) Applied linear statistical models. 4th ed. Boston: McGraw-Hill.
 Digimizer
Digimizer