Detección de valores atípicos

Definición: ¿Qué significa Detección de valores atípicos?

La detección de valores atípicos es el proceso de detectar y posteriormente excluir los valores atípicos de un conjunto de datos determinado.

Un valor atípico puede definirse como un dato u observación que se desvía drásticamente de la norma o promedio dado del conjunto de datos. Un valor atípico puede ser causado simplemente por casualidad, pero también puede indicar un error de medición o que el conjunto de datos dado tiene una distribución de cola gruesa.

Aquí hay un escenario simple en la detección de valores atípicos, un proceso de medición produce constantemente lecturas entre 1 y 10, pero en algunos casos raros obtenemos mediciones superiores a 20.

Estas medidas raras más allá de la norma se denominan valores atípicos porque "se encuentran fuera" de la curva de distribución normal.

Techinfo explica la detección de valores atípicos

Realmente no existe un método matemático estandarizado y rígido para determinar un valor atípico porque realmente varía según el conjunto o la población de datos, por lo que su determinación y detección finalmente se vuelve subjetiva. Mediante un muestreo continuo en un campo de datos determinado, se pueden establecer las características de un valor atípico para facilitar la detección.

Existen métodos basados ​​en modelos para detectar valores atípicos y asumen que todos los datos se toman de una distribución normal e identificarán observaciones o puntos, que se consideran improbables en función de la desviación estándar o media, como valores atípicos. Existen varios métodos para la detección de valores atípicos:

  • Prueba de Grubb para valores atípicos: se basa en la suposición de que los datos tienen una distribución normal y elimina un valor atípico a la vez y la prueba se repite hasta que no se puedan encontrar más valores atípicos.
  • Prueba Q de Dixon: también basado en la normalidad del conjunto de datos, este método prueba los datos incorrectos. Se ha observado que esto debe utilizarse con moderación y nunca más de una vez en un conjunto de datos.
  • Criterio de Chauvenet: se utiliza para analizar si el valor atípico es falso o todavía está dentro de los límites y se considera parte del conjunto. Se toman la media y la desviación estándar y se calcula la probabilidad de que ocurra el valor atípico. Los resultados determinarán si se debe incluir o no.
  • Criterio de Pierce: se establece un límite de error para una serie de observaciones, más allá del cual se descartarán todas las observaciones porque ya implican un error tan grande.