Apache avro

Definición: ¿Qué significa Apache Avro?

Apache Avro es un marco de serialización de datos y llamada a procedimiento remoto que se desarrolla dentro del proyecto Apache Hadoop, donde proporciona un formato de serialización para obtener datos persistentes y un formato de cable para proporcionar comunicación entre los nodos de Hadoop, así como para conectar programas de cliente a Hadoop. servicios.

Avro usa el formato JSON para definir protocolos y tipos de datos, y también serializa datos en un formato binario compacto.

Techinfo explica Apache Avro

Apache Avro es un marco de serialización de big data que produce datos en un formato binario compacto que no requiere generación de código ni objetos proxy.

Se utiliza como un componente de serialización de datos para Apache Hadoop. Avro trabaja en el concepto de esquemas. Cuando se leen datos de Avro, el esquema que se utilizó durante la escritura de esos datos específicos siempre está presente.

Esto permite que cada conjunto de datos sin gastos generales por valor, lo que hace que la serialización sea rápida y relativamente pequeña. Y dado que los datos y su esquema son completamente autodescriptivos, esto facilita su uso con lenguajes de secuencias de comandos dinámicos.

Cuando los datos de Avro se almacenan en un archivo específico, el esquema también se almacena con ellos para luego ser procesados ​​por otro programa. Entonces, si un programa que lee los datos espera otro esquema, entonces esto se puede resolver fácilmente ya que ambos esquemas están presentes.

Euro proporciona:

  • Un formato de datos binarios compacto y rápido

  • Estructuras de datos enriquecidas

  • Un archivo contenedor para almacenar datos persistentes

  • Llamada a procedimiento remoto (RPC)

  • Integración con lenguajes dinámicos

La generación de código no es un requisito para leer o escribir archivos de datos o para usar o implementar protocolos RPC.