Multicolinealidad

En este post se explica qué es la multicolinealidad en estadística. Así pues, encontrarás cuándo existe multicolinealidad, cuáles son las consecuencias de la multicolinealidad, cómo identificar la multicolinealidad y, por último, cómo arreglar este problema.

¿Qué es la multicolinealidad?

La multicolinealidad es una situación que se da cuando dos o más variables explicativas de un modelo de regresión tienen una fuerte correlación. Es decir, en un modelo de regresión existe multicolinealidad cuando la relación entre dos o más variables del modelo es muy fuerte.

Por ejemplo, si hacemos un modelo de regresión que relacione la esperanza de vida de un país con el tamaño de la población y su PIB, seguramente se produzca multicolinealidad entre el tamaño de la población y el PIB, ya que estas dos variables suelen estar altamente correlacionadas. En consecuencia, será complicado analizar el efecto de cada variable sobre la esperanza de vida.

Lógicamente, las variables de un modelo siempre estarán correlacionadas entre sí, solo en un proceso idílico se produce la no correlación entre las variables. Sin embargo, nos interesa que la correlación entre las variables sea débil, de lo contrario, no podemos saber el efecto de cada variable explicativa sobre la variable respuesta.

Las principales causas de la multicolinealidad suelen ser que el tamaño de la muestra es pequeño, que existe una relación causal entre las variables explicativas o que la variabilidad de las observaciones es baja.

Tipos de multicolinealidad

Existen dos tipos de multicolinealidad:

  • Multicolinealidad exacta: cuando una o más variables son combinación lineal de otras variables. En este caso, el coeficiente de correlación entre las variables multicolineales es igual a 1.
  • Multicolinealidad aproximada: no existe la combinación lineal entre las variables, pero el coeficiente de determinación entre dos o más variables es muy cercano a 1 y, por lo tanto, están fuertemente correlacionadas.

Consecuencias de la multicolinealidad

  • El valor de los coeficientes de regresión del modelo cambian cuando se añaden variables que están correlacionadas, lo que dificulta la interpretación del modelo de regresión obtenido.
  • Se reduce la precisión de la estimación de los parámetros, de manera que aumenta el error estándar de los coeficientes de regresión.
  • Alguna de las variables que provoca la multicolinealidad seguramente es redundante y, por tanto, no hace falta incluirla en el modelo.
  • Es probable que se caiga en una situación de sobreajuste, es decir, que el modelo esté demasiado ajustado y, por este motivo, no sirva para hacer predicciones.
  • Los p-valores de los coeficientes de regresión se vuelven menos confiables. En consecuencia, es más difícil determinar qué variables incluir y qué variables quitar en el modelo de regresión.

Cómo detectar la multicolinealidad

Una manera de identificar la multicolinealidad es calcular la matriz de correlación, ya que en ella se recoge el coeficiente de correlación entre todas las variables y, por tanto, se puede observar si algún par de variables están fuertemente correlacionadas.

No obstante, con la matriz de correlación solo se puede saber si dos variables están relacionadas entre sí, pero no se puede averiguar si existe una combinación entre un conjunto de variables. Para ello, se suele calcular el factor de inflación de la varianza.

El factor de inflación de la varianza (FIV), también llamado variance inflation factor (VIF) del inglés, es un coeficiente estadístico que se calcula para cada variable explicativa e indica la correlación de las otras variables con una variable explicativa determinada. En concreto, su fórmula es la siguiente:

FIV_i=\cfrac{1}{1-R_i^2}

Donde FIV_i es el factor de inflación de la varianza de la variable i y R_i^2 es el coeficiente de determinación del modelo de regresión que tiene la variable i como variable dependiente y el resto de variables como variables independientes.

Así pues, según el valor de los factores de inflación de la varianza obtenidos se puede saber si hay multicolinealidad o no:

  • FIV = 1: cuando el factor de inflación de la varianza es igual a 1, significa que no existe ninguna correlación entre la variable dependiente y las otras variables.
  • 1 < FIV < 5: existe correlación entre las variables, pero es moderada. En principio, no es necesario aplicar ninguna acción para corregir la multicolinealidad.
  • FIV > 5: si algún factor de inflación de la varianza es mayor que 1, significa que la multicolinealidad del modelo es alta y, por tanto, se debería intentar solucionar.

En la práctica, los factores de inflación de la varianza se suelen calcular mediante un software informático, ya que construir un modelo de regresión para cada variable y luego hallar el valor del coeficiente a mano llevaría mucho tiempo.

Solucionar la multicolinealidad

Las siguientes medidas pueden resultarte útiles para solucionar el problema de la multicolinealidad de un modelo de regresión:

  • Si el tamaño de la muestra es pequeño, aumentar el número de datos puede reducir la multicolinealidad aproximada.
  • Quitar alguna de las variables que producen la multicolinealidad. Si las variables están fuertemente correlacionadas, se perderá poca información en el modelo y la multicolinealidad se verá reducida.
  • Realizar el modelo de regresión aplicando el criterio de mínimos cuadrados parciales (PLS).
  • En ocasiones, se puede dejar el modelo de regresión tal y como está, con la multicolinealidad. Por ejemplo, si solo queremos hacer un modelo para hacer predicciones y no necesitamos interpretarlo, podemos utilizar la ecuación del modelo para predecir el valor de la variable dependiente con una nueva observación, suponiendo que el patrón de multicolinealidad se repite en las nuevas observaciones.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio