Perturbación de datos

Definición: ¿Qué significa la perturbación de datos?

La perturbación de datos es una forma de extracción de datos que preserva la privacidad para registros médicos electrónicos (EHR). Hay dos tipos principales de perturbación de datos apropiados para la protección de datos de HCE. El primer tipo se conoce como enfoque de distribución de probabilidad y el segundo tipo se denomina enfoque de distorsión de valor. La perturbación de datos se considera una técnica relativamente fácil y eficaz para proteger los datos electrónicos confidenciales del uso no autorizado.

Techinfo explica la perturbación de datos

La perturbación de datos ha sido aclamada como una aplicación más eficaz de la protección de datos en la atención médica que la desidentificación / reidentificación debido a la mayor probabilidad de que se produzcan ataques que vinculen conjuntos de datos públicos con identificadores o sujetos originales. Por esta misma razón, la perturbación de datos se considera una aplicación más sólida cuando se trata de seguridad EHR.

El enfoque de distribución de probabilidad toma los datos y los reemplaza de la misma muestra de distribución o de la distribución misma. El enfoque de distorsión de valor perturba los datos por ruido multiplacativo o aditivo, u otros procesos aleatorios. Se considera más eficaz que el primer tipo de perturbación. Este enfoque construye clasificadores de árbol de decisión donde a cada elemento se le asigna ruido aleatorio de la distribución gaussiana, por ejemplo. Mediante la minería de datos, la distribución de datos original se reconstruye a partir de su versión perturbada. Sin embargo, los críticos señalan el hecho de que se puede filtrar el ruido aditivo aleatorio, lo que puede resultar en compromisos de privacidad de EHR.