Heterocedasticidad

En este post se explica qué es la heterocedasticidad en estadística. Además, encontrarás cuáles son las causas de la heterocedasticidad, cuáles son sus consecuencias y cómo se puede arreglar.

¿Qué es la heterocedasticidad?

En estadística, la heterocedasticidad es una característica que presenta un modelo de regresión que implica que la varianza de los errores no es constante. Es decir, un modelo con heterocedasticidad significa que sus errores presentan una varianza irregular, entonces, se dice que el modelo es heterocedástico.

Recuerda que el error (o residuo) se define como la diferencia entre el valor real y el valor estimado por el modelo de regresión.

e_i=y_i-\widehat{y}_i

Al hacer un modelo de regresión, se calcula el error cometido por cada observación mediante la expresión anterior. Así pues, un modelo estadístico es heterocedástico cuando la varianza de los errores calculados no es constante a lo largo de las observaciones, sino que va variando.

heterocedasticidad y homocedasticidad

Aunque pueda parecer algo muy simple, es importante que un modelo de regresión no presente heterocedasticidad, pues el cálculo del modelo se basa en que la varianza de los residuos es constante, de hecho, es uno de los supuestos previos de los modelos de regresión.

Hay algunas pruebas estadísticas que permiten detectar la heterocedasticidad, tales como la prueba de White o la prueba de Goldfeld-Quandt. No obstante, generalmente representando gráficamente los residuos ya se puede identificar su heterocedasticidad.

Causas de la heterocedasticidad

Las causas más frecuentes de que un modelo tenga heterocedasticidad son las siguientes:

  • Cuando el rango de datos es muy grande con respecto a la media. Si en una misma muestra estadística hay valores muy grandes y valores muy pequeños, es probable que el modelo de regresión obtenido sea heterocedástico.
  • La omisión de variables dentro del modelo de regresión también provoca la heterocedasticidad. Lógicamente, si no se incluye una variable relevante en el modelo, su variación quedará recogida en los residuos y esta no será necesariamente fija.
  • Asimismo, un cambio en la estructura puede producir un mal ajuste del modelo al conjunto de datos y, por tanto, que la varianza de los residuos no sea constante.
  • Cuando alguna de las variables tiene valores mucho más grandes que las otras variables explicativas, puede darse que el modelo tenga heterocedasticidad. En este caso, se pueden relativizar las variables para arreglar el problema.

Sin embargo, hay algunos casos que, por naturaleza, son probables de que presenten heterocedasticidad. Por ejemplo, si modelamos los ingresos de una persona con el gasto en comidas, las personas más ricas tienen una variabilidad en el gasto en comida mucho más grande que las personas más pobres. Ya que una persona rica a veces come en restaurantes caros y otras veces en restaurantes baratos, a diferencia de una persona pobre que siempre come en restaurantes baratos. En consecuencia, es fácil que el modelo de regresión posea heterocedasticidad.

Consecuencias de la heterocedasticidad

Principalmente, las consecuencias por tener heterocedasticidad en un modelo de regresión son las siguientes:

  • Se pierde eficiencia en el estimador mínimo cuadrático, definido como la media de los cuadrados de los errores.
  • Se producen errores en el cálculo de la matriz de covarianza de los estimadores de mínimos cuadrados.

Corregir la heterocedasticidad

Cuando el modelo de regresión obtenido es heterocedástico, podemos probar las siguientes correcciones para lograr la heterocedasticidad:

  • Calcular el logaritmo natural de la variable independiente, esto suele ser útil cuando la varianza de los residuos va aumentando en la gráfica.
  • Dependiendo de la gráfica de los residuos, puede ser más conveniente otro tipo de transformación de la variable independiente. Por ejemplo, si la gráfica tiene forma de parábola, podemos calcular el cuadrado de la variable independiente y añadir dicha variable al modelo.
  • También se pueden utilizar otras variables para el modelo, al eliminar o añadir una variable se puede modificar la varianza de los residuos.
  • En lugar de emplear el criterio de los mínimos cuadrados, se puede usar el criterio de los mínimos cuadrados ponderados.

Heterocedasticidad y homocedasticidad

Para terminar, veremos cuáles son las diferencias entre la heterocedasticidad y la homocedasticidad en estadística, pues son dos conceptos de los modelos de regresión que debemos tener claros.

La homocedasticidad de un modelo de regresión es una característica estadística que indica que la varianza de los errores es constante. Por lo que un modelo homocedástico significa que la varianza de sus errores es constante.

La diferencia entre heterocedasticidad y homocedasticidad se encuentra en la constancia en la varianza de los residuos. Si la varianza de los residuos de un modelo no es constante, significa que el modelo es heterocedástico. En cambio, si la varianza de los residuos es constante, significa que es homocedástico.

Por lo tanto, debemos procurar que el modelo de regresión que construyamos sea homocedástico, de este modo se cumplirá el supuesto de que la varianza de los residuos sea constante.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio