Explicación detallada de la configuración de parámetros hdfs
– dfs.name.dir
– Ubicación de almacenamiento de metadatos de NameNode
– Valor predeterminado: use hadoop.tmp.dir en core-site.xml /dfs /name
– dfs.block.size
– El tamaño del nuevo archivo dividido, en bytes. El valor predeterminado es 64 M, la recomendación es 128 M. Se debe especificar cada nodo, incluido el cliente.
– Valor predeterminado: 67108864
– dfs.data.dir
– La ubicación donde DataNode almacena bloques en el disco local, que puede ser una coma. lista de directorios separados, el DataNode escribe datos en el disco en un bucle. Cada DataNode se puede especificar individualmente para que sea diferente de otros DataNodes
– Valor predeterminado: ${hadoop.tmp.dir}/dfs/data.
– dfs.namenode.handler.count
– La cantidad de subprocesos utilizados por NameNode para procesar solicitudes RPC de DataNode
– Se recomienda configurarlo al 10% del número de DataNode, generalmente 10 ~ Entre 200
: si la configuración es demasiado pequeña, el DataNode informará información de "conexión rechazada" en el registro al transmitir datos
– Establecido en el NameNode
– Valor predeterminado: 10
– dfs.datanode.handler.count
– Número de subprocesos utilizados por el DataNode para RPC solicitudes para conectarse al NameNode
– Depende Depende del nivel de actividad del sistema
– Un ajuste demasiado pequeño provocará una degradación del rendimiento o incluso informes de errores
– Establecer en el DataNode
– Valor predeterminado: 3
– dfs.datanode.max.xcievers
– El número de conexiones de transferencia de datos que el DataNode puede manejar simultáneamente
– Valor predeterminado: 256
– Valor de recomendación: 4096
– dfs.permissions
– Si es verdadero, se verifican los permisos , de lo contrario no está marcado (todos pueden acceder al archivo)
– Establecer en NameNode
– Valor predeterminado: verdadero
– dfs.datanode.du.reserved
– El espacio que HDFS no puede usar en cada volumen Tamaño
– Establecido en cada DataNode
– Valor predeterminado: 0
– Recomendado ser 10737418240, que es 10G. Debe combinarse con la configuración de escena de MapReduce.
– dfs.datanode.failed.volumes.tolerated
– La cantidad de discos que el DataNode puede tolerar con bloques perdidos. Si se excede este número, el DataNode se desconectará. y todos los bloques en este nodo se replicarán nuevamente
– El valor predeterminado es 0, pero este valor generalmente aumenta cuando hay varios discos
– dfs.replication
: en cuántas copias de cada bloque se copiarán cuando se escriba el archivo.
: el valor predeterminado es 3. Se recomiendan 3 copias
: configuradas en el cliente
Por lo general, también es necesario configurarlas en el DataNode
2. Configuración del parámetro HDFS core-site.xml
– fs.default.name
– El nombre del sistema de archivos.
Por lo general, el nombre de host y el puerto del NameNode
deben especificarse en cada máquina que necesite acceder al clúster, incluidos los nodos del clúster
, por ejemplo: hdfs:/ /
– fs.checkpoint.dir
– Lista de carpetas separadas por comas donde SecondNameNode almacena archivos de imágenes de puntos de control
– Si hay hay más de una carpeta, entonces se escribirán los datos
– Debe configurarse en SecondNameNode
– Valor predeterminado: ${hadoop.tmp.dir}/dfs/name secondary p>
– hadoop.tmp.dir
– Archivos temporales en HDFS y discos locales
El valor predeterminado es /tmp/hadoop-${user.name}. todos los nodos Configuración media
– fs.trash.interval
– Cuando se elimina un archivo, se colocará en el directorio .Trash del directorio del usuario en lugar de eliminarse inmediatamente.
– Después de la cantidad de minutos establecidos por este parámetro, los datos se eliminarán.
– El valor predeterminado es 0, deshabilite esta función y se recomienda que sea 1440 (un día )
– io.file.buffer.size
– Establece el tamaño de la caché al leer y escribir datos, debe ser 2 veces el tamaño de paginación del hardware
– El valor predeterminado es 4096, la recomendación es 65536 (64K)
3. Establezca el tamaño y la cantidad de archivos de registro
– Modifique los parámetros en core-site.xml
– hadoop.logfile.size
p>– hadoop.logfile.count
4. ¿Establecer el nivel de registro del componente
*? *Ver el nivel de registro de diferentes componentes**
– hadoop daemonlog -getlevel host:port packageName
? Establecer el nivel de registro del componente
– hadoop daemonlog –setlevle host:puerto nivel de nombre de paquete
– hadoop daemonlog - setlevel db74:50070 org.apache.hadoop ERROR
? DEPURACIÓN, INFORMACIÓN, ERROR, FATAL
> – El puerto es el puerto de la página principal, el valor predeterminado es 50070
? Nombre del componente (nombredelpaquete)
– org.apache.hadoop.hdfs.server.namenode.NameNode
– org.apache.hadoop.hdfs.server.datanode.DataNode
– org.apache.hadoop.hdfs
– org.apache.hadoop
– org.apache.hadoop.mapred.JobTracker
El orden de importancia de menor a mayor es DEBUG DEBUG es para pruebas, INFO es el valor predeterminado, generalmente se usa para producción, error ERROR, 5. Nodo de proceso HDFS 1.namenode Registre el nombre del espacio de datos de origen Los datos se asignan a esos nodos de datos para su almacenamiento Coordina el acceso del cliente a los archivos 2. nodo de datos Responsable de el almacenamiento del nodo físico donde se encuentra Gestión Escribe una vez, lee muchas veces (no se puede modificar) El archivo se compone de bloques de datos, el tamaño de bloque típico es 64M Los bloques de datos deben distribuirse lo más posible en cada nodo 3. Namenode secundario (auxiliar) Cuando el NameNode se reinicie, fusionará los fsimage y edita el archivo en el disco duro para obtener información completa de metadatos. Este archivo fsimage puede considerarse como un archivo de información de metadatos desactualizado (la información de modificación de metadatos más reciente se encuentra en el archivo de ediciones). Si el archivo de ediciones es muy grande, el proceso de fusión será muy lento, lo que provocará que HDFS no pueda iniciarse durante mucho tiempo. Si el archivo de ediciones se fusiona en fsimage con regularidad, es posible reiniciar NameNode. muy rapido. SecondaryNameNode realiza este trabajo de fusión. 6. La función de papelera de reciclaje de HDFS Cuando eliminas un archivo, en realidad se coloca en la papelera de reciclaje/papelera, y los archivos en la papelera de reciclaje se pueden restaurar rápidamente. Sí Establezca un umbral de tiempo. Cuando el tiempo de almacenamiento de los archivos en la papelera de reciclaje supere este umbral, se eliminarán por completo y los bloques de datos ocupados se liberarán (habilite la opción). función de papelera de reciclaje) [hadoop@h1 ~] vi core-site.xml (Agregue el siguiente párrafo, 10080 es el tiempo de retención, en minutos)
Número de minutos entre puntos de control de papelera. Si es cero, la función de papelera está desactivada
[hadoop@h1 hadoop-1.2.1]$ bin/ start-all.sh (reinicia la función de la papelera de reciclaje para que surta efecto)
Acabo de terminar de configurar Hadoop 1.0.4 y descubrí que todavía no No sé mucho sobre el archivo de configuración, así que busqué en Baidu y lo compartí con todos.
Configuraciones de puerto utilizadas comúnmente 1 puerto HDFS
| Parámetros | Descripción | Valores de ejemplo de namenode | | core -site.xml | hdfs://master:8020/ |
| dfs.mission.interval 30 | Período de tiempo de monitoreo cuando se ejecuta el comando de desactivación del nodo de nombre |
| 46 | dfs.namenode.decommission.nodes.per.interval | 5 | El número de veces para comprobar si se ha completado el comando de desmantelamiento del nodo de nombre
| 3 | El nodo de nombre calcula la replicación del nodo de datos. El número de ciclos para trabajar. |
| 48 | dfs.access.time.precision | 1 hora |
| 49 | dfs.support .append | false | Si se permite la especificación del archivo de enlace |
| 86400000 | El intervalo de actualización de la clave principal del token de proxy en el nodo de nombre es de 24 horas
| 51 | el token de proxy es de 7 días |
| 52 | dfs.namenode.delegation.token.renew-interval | 86400000 | el tiempo de renovación del token de delegación es de 24 horas | .datanode.failed.volumes.tolerated | 0 | Decisión de detener el nodo de datos La cantidad de errores al proporcionar créditos de servicio.
0 veces, si ocurre algún error de volumen, se debe detener el nodo de datos |