Colección de citas famosas - Slogan de motivación - Arquitectura HDFS y cuatro mecanismos

Arquitectura HDFS y cuatro mecanismos

HDFS: Sistema de archivos distribuido. Se utiliza para almacenar archivos y localizar archivos a través de árboles de directorios. Se combinan varios servidores para implementar sus propias funciones y los servidores del clúster realizan sus propias funciones. Adecuado para escribir una vez y leer muchas veces, no se admite la modificación de archivos. Adecuado para análisis de datos, no apto para aplicaciones de disco de red.

NameNode:

DataNode:

Cliente:

NameNode secundario

Los archivos en HDFS se almacenan físicamente en bloques de datos, el tamaño rápido se puede especificar a través del parámetro de configuración (dfs.blcoksize). El tamaño predeterminado es 128 M en Hadoop2.x y 64 M en versiones anteriores.

DataNode envía periódicamente informes de latidos a NameNode para notificar su estado.

Contenido de Heartbeat:

Período de informe de Heartbeat

Parámetro de NameNode para juzgar el tiempo de inactividad de DataNode:

No se recibió ningún dataNode durante 10 veces consecutivas Información de Heartbeat , el tiempo de verificación es dos veces.

El punto de referencia para NameNode para juzgar que DataNode está inactivo: 10 veces consecutivas sin recibir información de latidos de dataNode y dos verificaciones.

Hora de verificación: indica que cuando el NameNode no recibe el latido del DataNode, enviará activamente una verificación al DataNode.

HDFS primero entrará en modo seguro cuando se inicie y saldrá del modo seguro cuando se cumplan los requisitos especificados. En modo seguro, no puede realizar ninguna operación que modifique la información de metadatos.

Introducción a los metadatos HDFS (tres partes):

Ubicación de almacenamiento de metadatos HDSF:

Salga o ingrese manualmente al modo seguro.

Después de iniciar el clúster:

Los datos de cada archivo se almacenan en bloques y cada bloque de datos tiene múltiples copias distribuidas en diferentes nodos de la máquina. Por defecto, hay 3 copias de cada dato.

En la producción real, las estrategias de estantería deben configurarse manualmente.

El porcentaje de datos almacenados en cada nodo no es muy diferente.

El clúster tendrá una operación de equilibrio de carga automático con velocidades de transferencia relativamente lentas, lo cual es posible con menos nodos.

Si el clúster es grande, se requiere equilibrio de carga manual. Se ejecuta cuando el clúster está inactivo.