Coeficiente de determinación (R cuadrado)

En este post se explica qué es el coeficiente de determinación (o R cuadrado) en estadística. Así pues, encontrarás cómo calcular el coeficiente de determinación, cómo se interpreta y, además, una calculadora online para calcular el coeficiente de determinación de una muestra de datos.

¿Qué es el coeficiente de determinación (R cuadrado)?

El coeficiente de determinación, cuyo símbolo es R2 (R cuadrado), es un estadístico que mide la bondad de ajuste de un modelo de regresión. El coeficiente de determinación muestra lo bien que se ajusta un modelo de regresión a un conjunto de datos, es decir, indica el porcentaje explicado por el modelo de regresión.

Por lo tanto, cuanto mayor sea el coeficiente de determinación, mejor será el modelo de regresión. Aunque no siempre se cumple esta condición, en principio nos interesa un coeficiente de determinación lo más grande posible. Más abajo veremos cómo interpretar el coeficiente de determinación.

Fórmula del coeficiente de determinación

El coeficiente de determinación es igual a uno menos el cociente entre la varianza residual y la varianza de la variable dependiente. El coeficiente de determinación también se puede calcular restando uno menos la suma de los cuadrados de los residuos partido por la suma total de cuadrados.

Así pues, la fórmula para calcular el coeficiente de determinación es la siguiente:

fórmula del coeficiente de determinación, fórmula del r cuadrado

Donde:

  • R^2 es el coeficiente de determinación.
  • \sigma_r^2 es la varianza residual.
  • \sigma^2 es la varianza de la variable dependiente Y.
  • y_{i} es el valor de la variable dependiente de la observación i.
  • \widehat{y}_{i} es el valor aproximado por el modelo de regresión para la observación i.
  • \overline{y} es la media de la variable dependiente de todas las observaciones.

👉 Puedes usar la calculadora que hay más abajo para calcular el coeficiente de determinación de cualquier conjunto de datos.

Para el caso del modelo de regresión lineal, el coeficiente de determinación es equivalente al cuadrado del coeficiente de correlación:

R^2=\cfrac{\sigma_{XY}^2}{\sigma_X^2\sigma_Y^2}=\rho^2

Donde \sigma_{XY}^2 es la covarianza de las variables X e Y, \sigma_X^2 y \sigma_Y^2 son las varianzas de la variable independiente X y de la variable dependiente Y respectivamente.

Calculadora del coeficiente de determinación

Introduce una muestra de datos en la siguiente calculadora para ajustar un modelo de regresión lineal simple y calcular su coeficiente de determinación. Debes separar las parejas de datos, de manera que en el primer recuadro solo haya los valores de la variable independiente X y en el segundo recuadro únicamente estén los valores de la variable dependiente Y.

Los datos deben separase por un espacio e introducirse usando el punto como separador decimal.

  • Variable independiente X:
  • Variable dependiente Y:

Interpretación del coeficiente de determinación

En este apartado veremos cómo se debe interpretar el coeficiente de determinación, ya que no sirve de nada saber el valor del coeficiente de determinación si luego no sabemos qué significa.

El valor del coeficiente de determinación puede ir desde 0 hasta 1, no obstante, generalmente se expresa en forma de porcentaje por lo que el mínimo es 0% y el máximo 100%.

Con respecto a la interpretación del coeficiente de determinación, cuanto mayor sea su valor, significa que mejor explica el modelo de regresión la muestra de datos. De manera que cuanto más se aproxime el coeficiente de determinación a 1, mejor estará ajustado el modelo. Por otro lado, cuanto más cerca esté de 0, menos fiable será el modelo de regresión realizado.

No obstante, al comparar dos modelos de regresión, no siempre es mejor el modelo con un coeficiente de regresión mayor. Por ejemplo, un modelo de regresión puede tener un coeficiente de regresión R2=100% porque se han añadido muchas variables explicativas al modelo y, en consecuencia, puede explicar todas las observaciones perfectamente. Pero seguramente ese modelo haga una predicción muy mala para un nuevo valor que no se ha utilizado para construir el modelo de regresión.

También se debe tener presente que el modelo de regresión obtenido cumpla con los supuestos previos. Así pues, un modelo con un coeficiente de determinación muy alto resulta inútil si la variabilidad de sus residuos no es constante (homocedasticidad).

Además, el coeficiente de determinación tiene una limitación importante, pues no penaliza la inclusión de variables explicativas. Lógicamente, cuantas más variables explicativas tenga un modelo de regresión más complicado será el modelo pero mejor explicará los datos observados y, por tanto, mayor será el coeficiente de determinación. No obstante, el coeficiente de determinación ajustado sí que tiene en cuenta el número de variables del modelo (más abajo veremos cómo se calcula).

En conclusión, el coeficiente de determinación es muy útil para analizar un modelo de regresión, ya que nos permite saber cuánto de bien se ha ajustado el modelo de regresión al conjunto de datos. Sin embargo, también se deben utilizar otras herramientas para revisar el modelo obtenido como por ejemplo los gráficos estadísticos.

Coeficiente de determinación ajustado

El coeficiente de determinación ajustado, también llamado coeficiente de determinación corregido, mide la bondad de ajuste de un modelo de regresión teniendo en cuenta el número de variables explicativas incluidas en el modelo.

La diferencia entre el coeficiente de determinación y el coeficiente de determinación ajustado es que el coeficiente de determinación mide la bondad de ajuste sin tener en cuenta el número de variables, en cambio, el coeficiente de determinación ajustado mide la bondad de ajuste penalizando por cada variable añadida.

La fórmula para calcular el coeficiente de determinación ajustado es la siguiente:

\bar{R}^2=1-\cfrac{N-1}{N-k-1}\cdot (1-R^2)

Donde:

  • \bar{R}^2 es el coeficiente de determinación ajustado.
  • R^2 es el coeficiente de determinación.
  • N es el tamaño de la muestra.
  • k es el número de variables explicativas del modelo de regresión.

Por lo tanto, el coeficiente de determinación ajustado es mejor que el coeficiente de determinación para comparar dos modelos diferentes, ya que puede ser que los modelos tengan un número de variables explicativas diferente.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Ir arriba