Valores atípicos (outliers)

En este artículo se explica qué son los valores atípicos (u outliers) y cómo se calculan. Además, podrás calcular los valores atípicos de cualquier muestra de datos con una calculadora online.

¿Qué son los valores atípicos (outliers)?

En estadística, los valores atípicos, también llamados outliers, son observaciones que distan mucho del resto de conjunto de datos. Es decir, un valor atípico es valor anormal y que es extremadamente diferente al resto de valores de la muestra.

Es importante identificar los valores atípicos (u outliers) de una muestra, ya que pueden afectar considerablemente al cálculo de las medidas estadísticas.

Por ejemplo, si tenemos la serie de datos [1, 3, 5, 2, 79, 4, 8, 6], el número 79 es claramente un valor atípico. Porque su valor es extremadamente más grande que el resto de datos. En este caso, la media incluyendo el valor atípico es 13,5, mientras que la media sin el valor atípico sería 4,14. Como puedes ver, un solo valor atípico ya influye notablemente en el resultado de una métrica estadística.

 1, \ 3, \ 5, \ 2, \ 79, \ 4, \ 8, \ 6 \quad \color{orange}\bm{\longrightarrow}\color{black}\quad \text{Valor at\'ipico: } 79

Normalmente, los valores atípicos se distinguen fácilmente en los diagramas de dispersión, ya que están aislados respecto al resto de datos. Fíjate en el siguiente gráfico de dispersión, el outlier está muy separado del resto de valores:

diagrama de dispersion de valores atipicos u otliers

👉 Puedes usar la calculadora que hay más abajo para hallar los valores atípicos de cualquier conjunto de datos.

Cómo calcular los valores atípicos

Para calcular los valores atípicos de una muestra de datos se deben seguir los siguientes pasos:

  1. Calcular los cuartiles del conjunto de datos.
  2. Calcular el rango intercuartílico de los datos.
  3. Se considerarán valores atípicos (outliers) aquellos valores que cumplan una de las siguientes condiciones:
    • El valor es menor que el primer cuartil menos 1,5 veces el rango intercuartílico.
    • q<Q_1-1,5\cdot IQR

    • El valor es mayor que el tecer cuartil más 1,5 veces el rango intercuartílico.
    • q>Q_3+1,5\cdot IQR

Por lo tanto, para poder sacar los valores atípicos de una distribución de probabilidad debes saber cómo se calculan los cuartiles y el rango intercuartil de una muestra. Por si tienes alguna duda, a continuación tienes dos enlaces donde se explica detalladamente cómo se hace:

En el siguiente boxplot puedes ver dos valores atípicos según este criterio representados gráficamente:

valores atipicos outliers boxplot

Nota: ten presente que hay varios criterios para determinar cuáles son los límites a partir de los cuales los datos se consideran valores atípicos. En este artículo se ha cogido como referencia el criterio del test de Tukey, ya que es el más utilizado.

Ejemplo de valores atípicos

Vista la definición de valor atípico, en este apartado veremos un ejemplo resuelto de cómo identificar los valores atípicos de una serie de datos.

  • Calcula los valores atípicos u outliers del siguiente conjunto de datos estadísticos.

Primero de todo, calculamos los tres cuartiles del conjunto de datos:

Q_1=4,06

Q_2=4,38

Q_3=4,66

Una vez hemos hallado los tres cuartiles, hallamos el rango intercuartílico restando el cuartil 3 menos el cuartil 1:

IQR=Q_3-Q_1=4,66-4,06=0,6

Y ahora calculamos los límites que establecen los datos atípicos. Para ello, utilizamos las fórmulas explicadas en el apartado de arriba:

Q_1-1,5\cdot IQR=4,06-1,5\cdot 0,6=3,16

Q_3+1,5\cdot IQR=4,66+1,5\cdot 0,6=5,56

De manera que si alguno de los valores es más pequeño que 3,16 se trata de un valor atípico. Del mismo modo, si algún valor es superior a 5,56 también es un valor atípico.

En conclusión, en este caso tenemos dos valores extremos, porque 3,02 es menor que 3,16 y 5,71 es mayor que 5,56.

\text{Valores at\'ipicos} =\Bigl\{3,02 \ ; \ 5,71\Bigr\}

Calculadora de valores atípicos

Introduce un conjunto de datos estadísticos en la siguiente calculadora para calcular sus valores atípicos, si tiene. Los datos deben separase por un espacio e introducirse usando el punto como separador decimal.

Causas de los valores atípicos

Existen varias causas posibles para los valores atípicos, las más comunes son las siguientes:

  • El aparato que se utilizaba para hacer las mediciones se ha estropeado o ha sufrido un percance.
  • La pieza medida tenía un desperfecto debido a una causa anómala.
  • Se ha producido un error en la transmisión o transcripción de los datos.
  • Ha habido un error humano. Por muchas precauciones que se tome, los errores humanos no son inevitables del todo, así que siempre puede haber valores anómalos.

Estas son las causas más habituales, pero evidentemente la razón puede ser cualquiera. Asimismo, se debe tener en cuenta que cuando se hace un estudio estadístico con muchísimas observaciones, es normal que surja algún valor atípico.

Qué hacer con los valores atípicos

Una pregunta habitual cuando nos encontramos con algún valor atípico es qué debemos hacer él. ¿Se deberían eliminar de la muestra los valores atípicos?

Existe el pensamiento de que los valores atípicos se deberían eliminar siempre, ya que son datos que no se parecen al resto del conjunto. Sin embargo, aunque los outliers condicionan mucho el resultado de algunas métricas estadísticas, esto no significa que siempre deban ser eliminados.

En general, los valores atípicos solo se deberían eliminar si sabemos que la causa de la anomalía realmente está justificada y, por tanto, dichos valores atípicos son observaciones que no corresponden con lo que se está estudiando.

Esto es especialmente importante en muestras cuyo tamaño es pequeño, ya que entonces los valores extremos afectan más a las métricas estadísticas.

Por ejemplo, si se está midiendo la longitud de una parte de un producto para hacer un control de calidad, lógicamente si de repente aparece otro tipo de producto y se mide la misma parte, el valor medido será muy diferente a los anteriores y probablemente será un valor atípico. En este caso se podría descartar el outlier porque se conoce su causa y se sabe que el dato medido no forma parte de la población que se pretende analizar.

Deja un comentario

Tu dirección de correo electrónico no será publicada.

Ir arriba