Varianza

En este post te explicamos qué es la varianza, también llamada variancia, y cómo se calcula. Encontrarás la fórmula de la varianza, un ejemplo resuelto del cálculo de la varianza y, además, podrás calcular la varianza de cualquier conjunto de datos con una calculadora online.

También te mostramos cómo hallar la varianza de datos agrupados, ya que se hace de diferente manera. Por último, te enseñamos la diferencia entre la varianza poblacional y la varianza muestral, la diferencia entre la varianza y la desviación estándar, y las propiedades de esta medida estadística.

¿Qué es la varianza?

En estadística, la varianza es una medida de dispersión que indica la variabilidad de una variable aleatoria. La varianza es igual a la suma de los cuadrados de los residuos partido por el número total de observaciones.

Ten en cuenta que como residuo se entiende la diferencia entre el valor de un dato estadístico y la media del conjunto de datos.

En la teoría de la probabilidad, el símbolo de la varianza es la letra griega sigma elevada al cuadrado (σ2). Aunque también se suele representar como Var(X), siendo X la variable aleatoria de la cual se calcula la varianza.

En general, la interpretación del valor de la varianza de una variable aleatoria es sencilla. Cuanto más grande sea el valor de la varianza, más dispersos están los datos. Y al revés, cuanto más pequeña sea el valor de la varianza, menos dispersión habrá en la serie de datos. Sin embargo, al interpretar la varianza hay que prestar atención con los valores atípicos (outliers), ya que pueden distorsionar el valor de la varianza.

Junto a la varianza, las otras medidas que se consideran de dispersión son el rango, la desviación típica, la desviación media y el coeficiente de variación.

Cómo calcular la varianza

Para calcular la varianza se deben hacer los siguientes pasos:

  1. Hallar la media aritmética del conjunto de datos.
  2. Calcular los residuos, definidos como la diferencia entre los valores y la media del conjunto de datos.
  3. Elevar cada residuo al cuadrado.
  4. Sumar todos los resultados calculados en el paso anterior.
  5. Dividir entre el número total de datos. El resultado obtenido es la varianza de la serie de datos.

En conclusión, la fórmula para calcular la varianza de un conjunto de datos es la siguiente:

varianza

Donde:

  • X es la variable aleatoria de la que se quiere calcular la varianza.
  • x_i es el valor del dato i.
  • n es el número total de observaciones.
  • \overline{X} es la media de la variable aleatoria X.

👉 Puedes usar la calculadora que hay más abajo para calcular la varianza de cualquier conjunto de datos.

Por lo tanto, para sacar la varianza de una serie de datos es indispensable que sepas cómo se calcula la media aritmética. Si no recuerdas cómo se hace, puedes repasarlo en el artículo enlazado más arriba.

Ejemplo de la varianza

Ahora que ya sabemos la definición de varianza, vamos a resolver un ejercicio paso a paso para que veas cómo se saca la varianza de una serie de datos.

  • De una empresa multinacional se conoce el resultado económico que ha tenido durante los últimos cinco años, en la mayoría ha obtenido beneficios pero un año presentó unas pérdidas considerables: 11, 5, 2, -9, 7 millones de euros. Calcula la varianza de este conjunto de datos.

Como hemos visto en la explicación de arriba, lo primero que debemos hacer para hallar la varianza de una serie de datos es calcular su media aritmética:

\overline{X}=\cfrac{11+5+2+(-9)+7}{5}=3,2

Y una vez sabemos el valor promedio de los datos podemos utilizar la fórmula de la varianza:

Var(X)=\cfrac{\displaystyle\sum_{i=1}^n\left(x_i-\overline{X}\right)^2}{n}

Sustituimos los datos proporcionados por el enunciado del ejercicio en la fórmula:

Var(X)=\cfrac{\displaystyle (11-3,2)^2+(5-3,2)^2+(2-3,2)^2+(-9-3,2)^2+(7-3,2)^2}{5}

Por último, solo queda resolver las operaciones para hacer el cálculo de la varianza:

\begin{aligned}Var(X)&=\cfrac{7,8^2+1,8^2+(-1,2)^2+(-12,2)^2+3,8^2}{5}\\[2ex]&=\cfrac{60,84+3,24+1,44+148,84+14,44}{5}\\[2ex]&= \cfrac{228,8}{5} \\[2ex]&=45,76 \ \text{millones de euros}^2\end{aligned}

Fíjate que las unidades de la varianza son las mismas unidades de los datos estadísticos pero elevados al cuadrado, por eso la varianza de este grupo de datos es 45,76 millones de euros2.

Calculadora de la varianza

Introduce un conjunto de datos estadísticos en la siguiente calculadora para calcular su varianza. Los datos deben separase por un espacio e introducirse usando el punto como separador decimal.

Varianza para datos agrupados

Para calcular la varianza de unos datos agrupados en intervalos, se deben hacer los siguientes pasos:

  1. Hallar la media de los datos agrupados.
  2. Calcular los residuos de los datos agrupados.
  3. Elevar cada residuo al cuadrado.
  4. Multiplicar cada resultado anterior por la frecuencia de su intervalo.
  5. Hacer el sumatorio de todos los valores obtenidos en el paso anterior.
  6. Dividir entre el número total de observaciones. El número obtenido es la varianza de los datos agrupados.

Es decir, la fórmula para calcular la varianza de unos datos agrupados en intervalos es:

Var(X)=\cfrac{\displaystyle\sum_{i=1}^n\left(x_i-\overline{X}\right)^2\cdot f_i }{n}

Aunque normalmente se utiliza la fórmula de arriba, también se puede usar la expresión algebraica mostrada a continuación ya que es equivalente:

Var(X)=\cfrac{\displaystyle\sum_{i=1}^n x_i^2\cdot f_i }{n}-\overline{X}^2

A modo de ejemplo, vamos a hallar la varianza de la siguiente serie de datos agrupados:

datos agrupados en intervalos

En primer lugar, tenemos que determinar la media de los datos agrupados. Para ello, añadimos una columna en la tabla de frecuencias con el producto de la marca de clase por la frecuencia:

datos agrupados con media

Ahora calculamos la media de los datos agrupados dividiendo la suma de la columna añadida entre el número total de datos:

\overline{X}=\cfrac{\displaystyle\sum_{i=1}^n x_i\cdot f_i}{n}=\cfrac{750}{30}=25

Y a partir del promedio de los datos calculados, podemos añadir las siguientes tres columnas:

varianza para datos agrupados

De modo que la varianza del conjunto de datos agrupados es el sumatorio de la última columna dividido por el número total de datos observados:

Var(X)=\cfrac{\displaystyle\sum_{i=1}^n\left(x_i-\overline{X}\right)^2\cdot f_i }{n}=\cfrac{4200}{30}=140

Varianza y desviación estándar

La varianza y la desviación estándar (o desviación típica) son dos medidas de dispersión y, por lo tanto, ambas indican el grado de dispersión del conjunto de datos. Sin embargo, la diferencia entre la varianza y la desviación estándar es que en general la varianza presenta valores más grandes, ya que es el cuadrado de la desviación estándar.

La desviación estándar se suele representar mediante la letra griega sigma (σ), y por eso la varianza se representa con la letra sigma elevada al cuadrado (σ2), pues es la relación matemática que existe entre estas dos métricas de dispersión.

Var(X)=\sigma^2

De modo que una vez se ha calculado el valor de la varianza de un conjunto de datos, se puede hallar fácilmente el valor de la desviación estándar de ese mismo conjunto simplemente haciendo la raíz cuadrada de la varianza.

\sigma=\sqrt{\sigma^2}

Varianza poblacional y varianza muestral

Lógicamente, la varianza poblacional se refiere al cálculo de la varianza para una población estadística y, en cambio, la varianza muestral se aplica al cálculo de la varianza a una muestra. Sin embargo, son dos conceptos diferentes ya que la fórmula de la varianza poblacional es distinta a la fórmula de la varianza muestral.

Normalmente en los ejercicios de varianzas, si no nos dicen lo contrario, para encontrar la varianza del conjunto de datos proporcionado debemos emplear la fórmula de la varianza poblacional, que es la que hemos explicado al principio del post:

\sigma^2=\cfrac{\displaystyle\sum_{i=1}^n\left(x_i-\overline{X}\right)^2}{n}

Pero puede que en algún problema te digan que trates los datos estadísticos como una muestra, en tal caso tenemos que usar la fórmula de la varianza muestral:

s^2=\cfrac{\displaystyle\sum_{i=1}^n\left(x_i-\overline{X}\right)^2}{n-1}

Fíjate que para indicar que se está calculando la varianza de una población se indica con la letra griega σ, pero cuando se calcula la varianza de una muestra se pone la letra s.

Como puedes ver, en realidad la única diferencia entre las dos fórmulas es que en la varianza de una muestra tenemos que dividir entre el número total de observaciones menos 1, por ejemplo, si en total hay 30 datos dividiremos entre 29. Pero el cálculo del numerador se hace exactamente igual.

Propiedades de la varianza

La varianza tiene las siguientes propiedades:

  • La varianza de cualquier variable aleatoria siempre será mayor o igual que cero. Asimismo, si la varianza es igual a cero significa que todos los datos estadísticos son idénticos.

Var(x)\ge 0

  • Evidentemente, la varianza de un único valor es nula.

Var(a)=0\qquad a\in \mathbb{R}

  • La varianza del producto de un escalar por una variable es equivalente a dicho escalar al cuadrado multiplicado por la varianza de la variable.

Var(aX)=a^2\cdot Var(X)\qquad a\in \mathbb{R}

  • La varianza de la suma de dos variables dependientes es equivalente a la suma de la varianza de cada variable por separado más dos veces la covarianza entre las dos variables.

Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)

  • En consecuencia, si las dos variables son independientes, para determinar la varianza de su suma solamente es necesario sumar sus varianzas:

Var(X+Y)=Var(X)+Var(Y)

  • La varianza también se puede definir con la esperanza matemática mediante la siguiente fórmula:

Var(X)=E\bigl[(X-\overline{X})^2\bigr]

Deja un comentario

Tu dirección de correo electrónico no será publicada.

Ir arriba