Definición: ¿Qué significa Dirty Data?
Los datos sucios se refieren a datos que contienen información errónea. También se puede utilizar cuando se hace referencia a datos que están en la memoria y aún no se han cargado en una base de datos. La eliminación completa de datos sucios de una fuente es poco práctica o prácticamente imposible.
Los siguientes datos pueden considerarse datos sucios:
- Datos engañosos
- Datos duplicados
- Datos Incorrectos
- Datos inexactos
- Datos no integrados
- Datos que violan las reglas comerciales
- Datos sin formato generalizado
- Datos con puntuación o ortografía incorrecta
Techinfo explica los datos sucios
Además de la entrada de datos incorrecta, se pueden generar datos sucios debido a los métodos inadecuados en la gestión de datos y el almacenamiento de datos. Algunos tipos de datos sucios se explican a continuación:
- Datos incorrectos: para garantizar que los datos sean válidos o correctos, el valor ingresado debe cumplir con los valores válidos del campo. Por ejemplo, el valor ingresado en el campo del mes debe oscilar entre 1 y 12, o la edad de una persona debe ser menor de 130. La corrección del valor de los datos puede aplicarse mediante programación mediante tablas de búsqueda o con verificaciones de edición.
- Datos inexactos: es posible que un valor de datos sea correcto, pero no exacto. A veces, es práctico examinar otros archivos o campos para averiguar si el valor de los datos es exacto según el contexto en el que se utiliza. Aún así, la precisión a menudo solo se puede validar mediante verificación manual.
- Violaciones de las reglas comerciales: los datos que violan las reglas comerciales son otro tipo de datos sucios. Por ejemplo, una fecha de vigencia siempre debe ser anterior a una fecha de vencimiento. Otro ejemplo de infracción de las reglas comerciales puede ser el reclamo de seguro de Medicare de un paciente en el que el paciente puede estar todavía por debajo de la edad de jubilación y no tiene derecho a Medicare.
- Datos inconsistentes: la redundancia de datos no verificada conduce a inconsistencias de datos. Cada organización se ve afectada por datos inconsistentes y repetitivos. Esto es particularmente típico con los datos de los clientes.
- Datos incompletos: los datos con valores perdidos son el tipo principal de datos incompletos.
- Datos duplicados: los datos duplicados pueden ocurrir debido a envíos repetidos, unión incorrecta de datos o error del usuario.
Para aumentar la calidad de los datos y evitar datos sucios, las organizaciones deben incorporar metodologías para garantizar la integridad, validez, consistencia y corrección de los datos.