Supuestos en regresión lineal: una guía completa
Aprenderá los fundamentos de los supuestos en la regresión lineal y cómo validarlos utilizando ejemplos del mundo real para fines prácticos. análisis de los datos.
Destacados
- La regresión lineal es una técnica de modelado predictivo ampliamente utilizada para comprender las relaciones entre variables.
- La normalidad de los residuos ayuda a garantizar predicciones imparciales e intervalos de confianza confiables en la regresión lineal.
- La homocedasticidad garantiza que las predicciones del modelo tengan una precisión constante en diferentes valores.
- Identificar y abordar la multicolinealidad mejora la estabilidad y la interpretabilidad de su modelo de regresión.
- Las técnicas de transformación y preprocesamiento de datos, como el escalado y la normalización, pueden mitigar posibles problemas en la regresión lineal.
La regresión lineal es una técnica para modelar y predecir la relación entre una variable objetivo y una o más variables de entrada.
Nos ayuda a comprender cómo un cambio en las variables de entrada afecta a la variable objetivo.
La regresión lineal supone que una línea recta puede representar esta relación.
Por ejemplo, digamos que desea estimar el costo de una propiedad considerando su tamaño (medido en pies cuadrados) y antigüedad (en años).
En este caso, el precio de la casa es la variable objetivo y el tamaño y la antigüedad son las variables de entrada.
Utilizando la regresión lineal, se puede estimar el efecto del tamaño y la edad en el precio de la casa.
Supuestos en regresión lineal
Es necesario cumplir seis supuestos principales en la regresión lineal para que el modelo sea confiable y válido. Estos supuestos son:
1. Linealidad
Este supuesto establece que existe una relación lineal entre las variables dependientes e independientes. En otras palabras, el cambio en la variable dependiente debe ser proporcional al cambio en las variables independientes. La linealidad se puede evaluar mediante diagramas de dispersión o examinando los residuos.
2. Normalidad de los errores
Los residuos deben seguir una distribución normal con media cero. Esta suposición es esencial para probar correctamente las hipótesis y construir intervalos de confianza. La normalidad de los errores se puede evaluar mediante métodos visuales, como un histograma o un gráfico QQ, o mediante pruebas estadísticas, como la prueba de Shapiro-Wilk o la prueba de Kolmogorov-Smirnov.
3. Homocedasticidad
Este supuesto establece que la varianza de los residuos debe ser constante en todos los niveles de variables independientes. En otras palabras, la dispersión de los residuos debería ser similar para todos los valores de las variables independientes. La heterocedasticidad, que viola este supuesto, se puede identificar mediante diagramas de dispersión de los residuos o pruebas formales como la prueba de Breusch-Pagan.
4. Independencia de errores
Este supuesto establece que las observaciones del conjunto de datos deben ser independientes entre sí. Las observaciones pueden depender unas de otras cuando se trabaja con series temporales o datos espaciales debido a su proximidad temporal o espacial. Violar este supuesto puede dar lugar a estimaciones sesgadas y predicciones poco fiables. Los modelos especializados, como series temporales o modelos espaciales, pueden ser más apropiados en tales casos.
5. Ausencia de multicolinealidad (Regresión Lineal Múltiple)
La multicolinealidad se produce cuando dos o más variables independientes en el modelo de regresión lineal están altamente correlacionadas, lo que dificulta establecer el efecto preciso de cada variable sobre la variable dependiente. La multicolinealidad puede generar estimaciones inestables, errores estándar inflados y dificultad para interpretar los coeficientes. Puede utilizar el factor de inflación de la varianza (VIF) o la matriz de correlación para detectar la multicolinealidad. Si hay multicolinealidad, considere eliminar una de las variables correlacionadas, combinar las variables correlacionadas o utilizar técnicas como análisis de componentes principales (PCA) o regresión de cresta.
6. Independencia de las observaciones
Este supuesto establece que las observaciones del conjunto de datos deben ser independientes entre sí. Las observaciones pueden depender unas de otras cuando se trabaja con series temporales o datos espaciales debido a su proximidad temporal o espacial. Violar este supuesto puede dar lugar a estimaciones sesgadas y predicciones poco fiables. Los modelos especializados, como series temporales o modelos espaciales, pueden ser más apropiados en tales casos.
Al asegurarse de que se cumplan estos supuestos, puede aumentar la precisión, confiabilidad e interpretabilidad de sus modelos de regresión lineal. Si se viola alguna suposición, puede ser necesario aplicar transformaciones de datos, utilizar técnicas de modelado alternativas o considerar otros enfoques para abordar los problemas.
❓ ¿Confundido por el análisis de datos? Nuestra guía completa lo dejará muy claro
Supuestos | Descripción |
---|---|
Linealidad | Relación lineal entre variables dependientes e independientes, comprobada mediante diagramas de dispersión |
Normalidad | Distribución normal de residuos, evaluada mediante la prueba de Shapiro-Wilk. |
Homocedasticidad | Varianza constante en términos de error, evaluada mediante la prueba de Breusch-Pagan |
Independencia de errores | Términos de error independientes, verificados mediante la prueba de Durbin-Watson |
Independencia de las observaciones | Puntos de datos recopilados de forma independiente sin autocorrelación |
Ausencia de multicolinealidad | Sin multicolinealidad entre variables independientes, determinada mediante VIF y medidas de tolerancia |
Ejemplo practico
A continuación se muestra una demostración de un problema de modelo de regresión lineal con dos variables independientes y una variable dependiente.
En este ejemplo, modelaremos la relación entre los pies cuadrados y la antigüedad de una casa con su precio de venta.
El conjunto de datos contiene los metros cuadrados, la antigüedad y el precio de venta de 40 casas.
Usaremos regresión lineal múltiple para estimar los efectos de los metros cuadrados y la edad en el precio de venta.
Aquí te dejamos una tabla con los datos que puedes copiar y pegar:
Casa | Pies cuadrados | Edad | Precio |
---|---|---|---|
1 | 1500 | 10 | 250000.50 |
2 | 2000 | 5 | 300000.75 |
3 | 1200 | 15 | 200500.25 |
4 | 2500 | 2 | 400100.80 |
5 | 1800 | 8 | 270500.55 |
6 | 1600 | 12 | 220800.60 |
7 | 2200 | 4 | 320200.10 |
8 | 2400 | 1 | 420300.90 |
9 | 1000 | 18 | 180100.15 |
10 | 2000 | 7 | 290700.40 |
11 | 1450 | 11 | 240900.65 |
12 | 2050 | 6 | 315600.20 |
13 | 1150 | 16 | 190800.75 |
14 | 2600 | 3 | 410500.50 |
15 | 1750 | 9 | 260200.55 |
16 | 1550 | 13 | 210700.85 |
17 | 2300 | 3 | 330400.45 |
18 | 2450 | 2 | 415200.90 |
19 | 1100 | 17 | 185300.65 |
20 | 1900 | 8 | 275900.80 |
21 | 1400 | 12 | 235800.55 |
22 | 2100 | 6 | 305300.40 |
23 | 1300 | 14 | 195400.25 |
24 | 2700 | 3 | 410200.75 |
25 | 1700 | 10 | 255600.20 |
26 | 1650 | 11 | 215400.60 |
27 | 2150 | 5 | 325500.50 |
28 | 1250 | 15 | 205700.85 |
29 | 2550 | 4 | 395900.90 |
30 | 1850 | 9 | 265100.65 |
31 | 1350 | 13 | 225900.40 |
32 | 1950 | 7 | 285800.15 |
33 | 1100 | 16 | 195900.80 |
34 | 2800 | 3 | 430700.55 |
35 | 1750 | 10 | 245500.20 |
36 | 1600 | 12 | 225300.10 |
37 | 2000 | 7 | 310700.50 |
37 | 2000 | 7 | 310700.50 |
38 | 1200 | 15 | 201200.90 |
39 | 2600 | 4 | 380800.65 |
40 | 1800 | 8 | 279500.25 |
2. Normalidad de los errores
Evalúe el supuesto de normalidad realizando la prueba de Shapiro-Wilk, que evalúa la distribución de los residuos en busca de desviaciones significativas de una distribución normal.
En la prueba de Shapiro-Wilk, un valor p alto (normalmente superior a 0.05) indica que la distribución de los residuos no difiere significativamente de una distribución normal.
3. Homocedasticidad
Evalúe el supuesto de homocedasticidad realizando la prueba de Breusch-Pagan, que verifica la varianza no constante en los términos de error.
Un valor p alto (normalmente superior a 0.05) sugiere que los datos exhiben homocedasticidad, con una varianza constante entre diferentes valores.
4. Independencia de errores
Un estadístico de Durbin-Watson cercano a 2 sugiere que los errores son independientes, con una autocorrelación mínima presente.
Los valores inferiores o superiores a 2 indican autocorrelación positiva o negativa, respectivamente.
El valor p significa que el estadístico DW no es significativamente diferente de 2.
5. Ausencia de multicolinealidad
Evalúe la ausencia de multicolinealidad utilizando el factor de inflación de varianza (VIF) y medidas de tolerancia. Los valores bajos de VIF (normalmente inferiores a 10) y los valores altos de Tolerancia (superiores a 0.1) indican que la multicolinealidad no es una preocupación importante en el modelo de regresión.
Nuestros datos indican la presencia de multicolinealidad entre las variables edad y pies cuadrados. Tendremos que eliminar uno de ellos. La variable que se eliminará se puede determinar de varias maneras, como probando con regresiones lineales simples para ver cuál se ajusta mejor al modelo o decidiendo en función de la teoría subyacente.
6. Independencia de las observaciones
Para evitar violar el supuesto de independencia de las observaciones, asegúrese de que sus puntos de datos se recopilen de forma independiente y no muestren autocorrelación, que puede evaluarse mediante la prueba de Durbin-Watson.
Conclusión
Es fundamental examinar y abordar estos supuestos al construir un modelo de regresión lineal para garantizar la validez, la confiabilidad y la interpretabilidad.
Al comprender y verificar los seis supuestos (linealidad, independencia de errores, homocedasticidad, normalidad de errores, independencia de observaciones y ausencia de multicolinealidad), se pueden construir modelos más precisos y confiables, lo que conducirá a una mejor toma de decisiones y una mejor comprensión de las relaciones. entre variables en sus datos.
Aprovecha la oportunidad de acceder GRATIS muestras de nuestro libro digital recién publicado y libera tu potencial.
Sumérgete en el dominio avanzado análisis de los datos métodos, determinar el tamaño de muestra perfecto y comunicar los resultados de forma eficaz, clara y concisa.
Haga clic en el enlace para descubrir una gran cantidad de conocimientos: Estadística Aplicada: Análisis de Datos.