Definición: ¿Qué significa Datos sin etiquetar?
Los datos no etiquetados son una designación para los datos que no se han etiquetado con etiquetas que identifican características, propiedades o clasificaciones. Los datos sin etiquetar se utilizan normalmente en diversas formas de aprendizaje automático.
Techinfo explica los datos sin etiquetar
En los tipos de aprendizaje automático llamados aprendizaje automático no supervisado, el programa de aprendizaje automático funciona evaluando conjuntos de datos sin etiquetar. Debido a que los datos no tienen etiquetas, el programa de aprendizaje automático tiene que identificar cada pieza de datos en sus propiedades y características.
Una de las mejores formas de explicar esto es utilizando la metáfora del frutero. Supongamos que el programa de aprendizaje automático está aprendiendo a identificar tres tipos diferentes de frutas: plátanos, uvas y manzanas. Si los datos del conjunto de entrenamiento inicial están etiquetados, el programa de aprendizaje automático funciona desde esa perspectiva, haciendo coincidir imágenes sucesivas con una de esas tres categorías.
Sin embargo, si ninguna de las piezas de datos está etiquetada con los tres nombres de frutas (plátanos, uvas y manzanas), el programa de aprendizaje automático deberá funcionar evaluando cada imagen y observando características como el color (amarillo, rojo o morado), formas, largas y delgadas, redondas o agrupadas, y otras características.
A partir de este ejemplo, es fácil ver cómo los datos etiquetados brindan oportunidades mucho más fáciles de usar algoritmos de aprendizaje automático para obtener resultados de decisiones. Sin embargo, los sofisticados programas de aprendizaje automático no supervisados que se ocupan de datos sin etiquetar también pueden producir resultados asombrosamente precisos y precisos.