Definición: ¿Qué significa procesamiento previo de datos?
El preprocesamiento de datos es una técnica de minería de datos que implica transformar los datos sin procesar en un formato comprensible. Los datos del mundo real a menudo son incompletos, inconsistentes, carecen de ciertos comportamientos o tendencias y es probable que contengan muchos errores.
El preprocesamiento de datos es un método probado para resolver estos problemas. El preprocesamiento de datos prepara los datos sin procesar para su posterior procesamiento.
El preprocesamiento de datos se utiliza en aplicaciones basadas en bases de datos, como la gestión de relaciones con los clientes y aplicaciones basadas en reglas (como redes neuronales).
En los procesos de Machine Learning (ML), el preprocesamiento de datos es fundamental para codificar el conjunto de datos en una forma que pueda ser interpretada y analizada por el algoritmo.
Techinfo explica el preprocesamiento de datos
Los datos pasan por una serie de pasos durante el preprocesamiento:
Limpieza de datos: Los datos se limpian a través de procesos como completar los valores faltantes o eliminar filas con datos faltantes, suavizar los datos ruidosos o resolver las inconsistencias en los datos.
Suavizar los datos ruidosos es particularmente importante para los conjuntos de datos de ML, ya que las máquinas no pueden utilizar datos que no pueden interpretar. Los datos se pueden limpiar dividiéndolos en segmentos de igual tamaño que, por lo tanto, se suavizan (agrupamiento), ajustándolos a una función de regresión lineal o múltiple (regresión) o agrupándolos en grupos de datos similares (agrupamiento).
Pueden producirse inconsistencias en los datos debido a errores humanos (la información se almacenó en un campo incorrecto). Los valores duplicados deben eliminarse mediante la deduplicación para evitar que ese objeto de datos tenga una ventaja (sesgo).
Integración de Datos: Los datos con diferentes representaciones se juntan y se resuelven los conflictos dentro de los datos.
Transformación de datos: Los datos están normalizados y generalizados. La normalización es un proceso que asegura que ningún dato sea redundante, que todo esté almacenado en un solo lugar y que todas las dependencias sean lógicas.
Reducción de datos: Cuando el volumen de datos es enorme, las bases de datos pueden volverse más lentas, costosas de acceder y difíciles de almacenar correctamente. El paso de reducción de datos tiene como objetivo presentar una representación reducida de los datos en un almacén de datos.
Existen varios métodos para reducir los datos. Por ejemplo, una vez que se elige un subconjunto de atributos relevantes por su importancia, se descarta todo lo que esté por debajo de un nivel determinado. También se pueden utilizar mecanismos de codificación para reducir el tamaño de los datos. Si todos los datos originales se pueden recuperar después de la compresión, la operación se etiqueta como sin pérdidas.
Si se pierden algunos datos, se denomina reducción con pérdidas. La agregación también se puede utilizar, por ejemplo, para condensar innumerables transacciones en un solo valor semanal o mensual, lo que reduce significativamente la cantidad de objetos de datos.
Discretización de datos: Los datos también podrían discretizarse para reemplazar valores brutos con niveles de intervalo. Este paso implica la reducción de varios valores de un atributo continuo dividiendo el rango de intervalos de atributo.
Muestreo de datos: A veces, debido a limitaciones de tiempo, almacenamiento o memoria, un conjunto de datos es demasiado grande o complejo para trabajar con él. Las técnicas de muestreo se pueden utilizar para seleccionar y trabajar con solo un subconjunto del conjunto de datos, siempre que tenga aproximadamente las mismas propiedades que el original.