Definición - ¿Qué significa Data Wrangling?
La gestión de datos es un tipo específico de gestión de datos que surge de las nuevas capacidades de software que introducen conjuntos de datos grandes, desordenados y diversos que deben integrarse en una arquitectura orientada a servicios (SOA) con fines de análisis y uso. La manipulación de datos generalmente implica muchas técnicas sofisticadas diferentes para manejar datos irregulares o diversos y manipularlos para casos de uso comercial.
Techinfo explica la manipulación de datos
Puede parecer un término informal, pero la disputa de datos ocupa un espacio particular en la gestión de datos. Una forma útil de comprender la disputa de datos es contrastarla con la metodología de extracción, transformación y carga (ETL), a menudo más formal. La disputa de datos tiene diferentes aspectos y casos de uso que ETL. A menudo, lo realizan científicos de datos capacitados u otras personas cercanas a la tubería. De alguna manera, la disputa de datos podría denominarse un tipo de ETL de "código abierto" en el sentido de que los ingenieros que manejan los datos pueden ser más "prácticos" o utilizar métodos de extracción más manuales.
Para aquellos que realmente comprenden los procesos refinados mediante los cuales se seleccionan, clasifican e introducen diversos datos en las arquitecturas empresariales, la disputa de datos es en realidad un tema muy importante. Los profesionales de TI analizan una amplia gama de herramientas, recursos y técnicas para generar valor a partir de datos desordenados, sin procesar o no estructurados.