Regresión lineal

En este artículo se explica qué es la regresión lineal y para qué sirve en estadística. Además, podrás ver cómo se calculan los dos tipos de regresión lineal: la regresión lineal simple y la regresión lineal múltiple.

¿Qué es la regresión lineal?

La regresión lineal es un modelo estadístico que relaciona una o varias variables independientes con una variable dependiente. Es decir, la regresión lineal es una técnica que sirve para encontrar una ecuación que aproxime la relación entre una o varias variables explicativas y una variable respuesta.

Por ejemplo, la ecuación y=2+5x1-3x2+8x3 es un modelo de regresión lineal, ya que relaciona matemáticamente tres variables independientes (x1, x2, x3) con una variable dependiente (y) y, además, la relación entre las variables es lineal.

Tipos de regresión lineal

Existen dos tipo de regresión lineal:

  • Regresión lineal simple: se relaciona una única variable independiente con una variable dependiente. Por lo tanto, la ecuación de este tipo de modelo de regresión lineal es de la forma y=β01x1.
  • Regresión lineal múltiple: el modelo de regresión tiene varias variables explicativas y una variable respuesta. Por lo tanto, la ecuación de este tipo de modelo de regresión lineal es de la forma y=β01x12x2…+βmxm.

Regresión lineal simple

La regresión lineal simple se usa para relacionar una variable independiente X con una variable dependiente Y. Es decir, en una regresión lineal simple solo hay dos variables (la variable explicativa X y la variable respuesta Y) y se intenta aproximar la relación que hay entre ambas variables.

La ecuación de un modelo de regresión lineal simple es una recta, por lo que está formada por dos coeficientes: la constante de la ecuación (β0) y el coeficiente de la correlación entre las dos variables (β1). Por lo tanto, la ecuación de un modelo de regresión lineal simple es y=β01x.

y=\beta_0+\beta_1x

Las fórmulas para calcular los coeficientes de la regresión lineal simple son las siguientes:

\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[12ex]\beta_0=\overline{y}-\beta_1\overline{x}\end{array}

Donde:

  • \beta_0 es la constante de la recta de regresión.
  • \beta_1 es la pendiente de la recta de regresión.
  • x_i es el valor de la variable independiente X del dato i.
  • y_i es el valor de la variable dependiente Y del dato i.
  • \overline{x} es la media de los valores de la variable independiente X.
  • \overline{y} es la media de los valores de la variable dependiente Y.

Regresión lineal múltiple

En un modelo de regresión lineal múltiple se incluyen dos o más variables independientes. Es decir, la regresión lineal múltiple permite relacionar varias variables explicativas con una variable respuesta de manera lineal.

La ecuación de un modelo de regresión lineal múltiple es y=β01x12x2+…+βmxm+ε.

y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon

Donde:

  • y es la variable dependiente.
  • x_i es la variable independiente i.
  • \beta_0 es la constante de la ecuación de la regresión lineal múltiple.
  • \beta_i es el coeficiente de regresión asociado a la variable x_i.
  • \bm{\varepsilon} es el error o residuo, es decir, la diferencia entre el valor observado y el valor estimado por el modelo.
  • m es el número total de variables del modelo.

De modo que si tenemos una muestra con un total de n observaciones, podemos plantear el modelo de regresión lineal múltiple en forma matricial:

\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}

La expresión matricial anterior se puede reescribir asignando una letra a cada matriz:

Y=X\beta+\varepsilon

Así pues, aplicando el criterio de los mínimos cuadrados, se puede llegar a la fórmula para estimar los coeficientes de un modelo de regresión lineal múltiple:

\widehat{\beta}=\left(X^tX\right)^{-1}X^tY

No obstante, aplicar esta fórmula es muy laborioso y lleva mucho tiempo, por lo que en la práctica se recomienda usar un software informático (como Minitab o Excel) que permite realizar un modelo de regresión múltiple de manera mucho más rápida.

Supuestos de la regresión lineal

En un modelo de regresión lineal, se deben cumplir los siguientes requisitos para que el modelo tenga validez:

  • Independencia: los residuos deben ser independientes entre sí. Una manera común de garantizar la independencia del modelo es añadiendo aleatoriedad en el proceso de muestreo.
  • Homocedasticidad: debe haber homogeneidad en las varianzas de los residuos, es decir, la variabilidad de los residuos debe ser constante.
  • No multicolinealidad: las variables explicativas incluidas en el modelo no pueden estar relacionadas entre sí o, al menos, su relación debe ser muy débil.
  • Normalidad: los residuos deben estar distribuidos normalmente, o dicho de otra forma, deben seguir una distribución normal de media 0.
  • Linealidad: se supone que la relación entre la variable respuesta y las variables explicativas es lineal.

¿Para qué sirve la regresión lineal?

La regresión lineal tiene dos usos básicamente: la regresión lineal sirve para explicar la relación entre las variables explicativas y la variable respuesta y, asimismo, la regresión lineal se utiliza para predecir el valor de la variable dependiente para una nueva observación.

Al obtener la ecuación del modelo de regresión lineal, podemos saber qué tipo de relación hay entre las variables del modelo. Si el coeficiente de regresión de una variable independiente es positivo, la variable dependiente aumentará cuando esta aumente. Mientras que si el coeficiente de regresión de una variable independiente es negativo, la variable dependiente disminuirá cuando esta aumente.

Por otro lado, la ecuación calculada en la regresión lineal también nos permite hacer predicciones de valores. Así pues, introduciendo los valores de las variables explicativas en la ecuación del modelo, podremos calcular el valor de la variable dependiente para un dato nuevo.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio