Sistema de archivos distribuido hadoop (hdfs)

Definición: ¿Qué significa el sistema de archivos distribuido de Hadoop (HDFS)?

El sistema de archivos distribuido de Hadoop (HDFS) es un sistema de archivos distribuido que se ejecuta en hardware estándar o de gama baja. Desarrollado por Apache Hadoop, HDFS funciona como un sistema de archivos distribuido estándar, pero proporciona un mejor rendimiento y acceso a los datos a través del algoritmo MapReduce, alta tolerancia a fallas y soporte nativo de grandes conjuntos de datos.

Techinfo explica el sistema de archivos distribuido Hadoop (HDFS)

El HDFS almacena una gran cantidad de datos colocados en múltiples máquinas, generalmente en cientos y miles de nodos conectados simultáneamente, y brinda confiabilidad de los datos al replicar cada instancia de datos como tres copias diferentes: dos en un grupo y una en otro. Estas copias pueden ser reemplazadas en caso de falla.

La arquitectura HDFS consta de clústeres, a cada uno de los cuales se accede a través de una única herramienta de software NameNode instalada en una máquina separada para monitorear y administrar el sistema de archivos y el mecanismo de acceso del usuario de ese clúster. Las otras máquinas instalan una instancia de DataNode para administrar el almacenamiento del clúster.

Debido a que HDFS está escrito en Java, tiene soporte nativo para interfaces de programación de aplicaciones (API) Java para la integración y accesibilidad de aplicaciones. También se puede acceder a través de navegadores web estándar.