Colección de citas famosas - Colección de firmas - Preguntas del examen escrito de Hadoop sobre tecnología de big data

Preguntas del examen escrito de Hadoop sobre tecnología de big data

Preguntas del examen escrito de Hadoop sobre tecnología de Big Data

Introducción: Hadoop tiene las características de alta tolerancia a fallas y está diseñado para implementarse en hardware de bajo costo. Las siguientes son las preguntas de la prueba escrita de la entrevista y la experiencia recomendada por mí, J.L. Puede leerlas como referencia.

Preguntas de opción múltiple

1. ¿Cuál de los siguientes programas es responsable del almacenamiento de datos HDFS?

a) NameNode

b) Jobtracker

c) Datanode

d) SecondaryNameNode

e) tasktracker

2. ¿Cuántas copias de un bloque en HDfS se guardan por defecto

a) 3 copias

b) 2 copias

c)1

d) No estoy seguro

3. ¿Cuál de los siguientes programas se inicia normalmente en el mismo nodo que NameNode

a) SecondaryNameNode

p>

b )DataNode

c) TaskTracker

d) Jobtracker

4. Autor de Hadoop

a) Martin Fowler

b) Kent Beck

c) Doug cortando

5. Tamaño de bloque predeterminado de HDFS

a) 32 MB

b) 64 MB

c) 128 MB

6. ¿Cuál de los siguientes suele ser el principal cuello de botella de un clúster?

a) CPU

b) Red

p>

c) Disco

d) Memoria

7. ¿Cuál es correcto acerca de SecondaryNameNode

? a) Es el modo de espera activo de NameNode

b) No tiene requisitos de memoria

c) Su propósito es ayudar a NameNode a fusionar el registro de edición y reducir el tiempo de inicio de NameNode

d) El SecondaryNameNode debe estar conectado al NameNode Implementar en un nodo

Preguntas de opción múltiple

8. ¿Cuál de los siguientes se puede utilizar como administrador de clústeres? herramienta

a) Marioneta

b )Pdsh

c) Cloudera Manager

d) d) Zookeeper

9. ¿Cuál de las siguientes opciones es correcta para configurar el conocimiento del rack?

a) Si hay un problema con un rack, no afectará la lectura y escritura de datos

b) Al escribir datos, se escribirán en el DataNode de un rack diferente

c) MapReduce El rack obtendrá datos de red que están relativamente cerca de él

10. ¿Cuál de las siguientes opciones es correcta? cuando el cliente carga archivos

a) Los datos se pasan al DataNode a través del NameNode

b) El cliente divide el archivo en bloques y los carga en secuencia

c) El cliente solo carga los datos en un DataNode, y luego el NameNode es responsable del trabajo de replicación del bloque

11. ¿Cuál de los siguientes es el modo en el que se ejecuta Hadoop?

a) Versión independiente

b) Pseudodistribuida

c) Distribuida

12. Proporcionado por Cloudera Qué métodos instalar CDH

a) Gerente de Cloudera

b) Bola de alquitrán

c) Yum d) Rpm

Pregunta de juicio

13. no sólo puede monitorear, sino también proporcionar alarmas. ( )

14. El tamaño del bloque no se puede modificar.

( )

15. Nagios no puede monitorear los clústeres de Hadoop porque no proporciona soporte para Hadoop. ( )

 16. Si el NameNode termina inesperadamente, el SecondaryNameNode tomará el control y permitirá que el clúster continúe funcionando. ( )

17. Cloudera CDH requiere pago. ( )

18. Hadoop está desarrollado en Java, por lo que MapReduce solo admite la escritura en lenguaje Java. ( )

19. Hadoop admite la lectura y escritura aleatoria de datos. ()

 20. NameNode es responsable de administrar los metadatos. Cada vez que el cliente realiza una solicitud de lectura o escritura, leerá desde el disco o escribirá información de metadatos y la enviará al cliente. ( )

 21. El disco local de NameNode guarda la información de ubicación de Block. ( )

 22.DataNode mantiene comunicación con NameNode a través de conexiones largas. ( )

23. El propio Hadoop tiene estrictas medidas de seguridad y gestión de permisos para garantizar el funcionamiento normal del clúster. ( )

24. El nodo esclavo necesita almacenar datos, por lo que cuanto más grande sea su disco, mejor. ( )

 25. El comando hadoop dfsadmin ?report se utiliza para detectar bloques corruptos de HDFS. ( )

26. La estrategia de programación predeterminada de Hadoop es FIFO ( )

27. Cada nodo del clúster debe estar equipado con RAID para evitar daños a un solo disco y afectar el funcionamiento de todo el nodo. ( )

 28. Debido a que HDFS tiene múltiples copias, no existe un único punto de problema para NameNode. ( )

 29. Cada espacio del mapa es un hilo. ( )

30. La división de entrada de Mapreduce es un bloque. ()

 31. El puerto de interfaz de usuario web de NameNode es 50030, que inicia el servicio web a través de Jetty. ( )

 32. HADOOP_HEAPSIZE en la variable de entorno de Hadoop se utiliza para configurar la memoria de todos los subprocesos del demonio de Hadoop. El valor predeterminado es 200 GB. ( )

 33. Cuando el DataNode se une al clúster por primera vez, si el registro informa una versión de archivo incompatible, el NameNode debe realizar la operación de formato de nombre de Hadoop para formatear el disco. ( )

¡No te vayas, la respuesta está detrás de ti!

1. ¿Cuál de los siguientes programas es responsable del almacenamiento de datos HDFS? Respuesta C datanode

a) NameNode

b) Jobtracker

c) Datanode

d) SecondaryNameNode

e)tasktracker

2. ¿Cuántas copias de un bloque en HDfS se guardan de forma predeterminada? La respuesta A tiene por defecto 3 puntos

a) 3 copias

b? ) 2 copias

p>

c) 1 copia

d) No estoy seguro

3. ¿Cuál de los siguientes programas se inicia generalmente en el mismo nodo que NameNode? ? Respuesta D

a )SecondaryNameNode

b)DataNode

c)TaskTracker

d)Jobtracker

Análisis de esta pregunta:

El clúster hadoop se basa en el modo maestro/esclavo. El nodo de nombre y el rastreador de trabajos pertenecen al maestro, y el nodo de datos y el rastreador de tareas pertenecen al esclavo. El esclavo tiene múltiples requisitos de memoria de SecondaryNameNode que están en el mismo orden de magnitud que el NameNode, por lo que generalmente el NameNode secundario (se ejecuta en una máquina física separada) y el NameNode se ejecutan en máquinas diferentes.

JobTracker y TaskTracker

JobTracker corresponde a NameNode

TaskTracker corresponde a DataNode

DataNode y NameNode son para almacenamiento de datos

JobTracker y TaskTracker son para la ejecución de MapReduce

Hay varios conceptos principales en mapreduce. En su conjunto, Mapreduce se puede dividir en varias pistas de ejecución: obclient, JobTracker y TaskTracker.

1. JobClient empaquetará los parámetros de configuración de la aplicación en un archivo jar y los almacenará en hdfs a través de la clase JobClient en el lado del usuario, y enviará la ruta a Jobtracker, y luego JobTracker creará cada tarea (es decir, MapTask y ReduceTask) y distribuirlos a varios servicios de TaskTracker para su ejecución.

2. JobTracker es un servicio maestro. Una vez iniciado el software, JobTracker recibe el trabajo y es responsable de programar cada subtarea del trabajo para que se ejecute en TaskTracker y monitorearlas si falla una tarea. se encuentra, vuelva a ejecutarlo. En general, JobTracker debe implementarse en una máquina separada.

3. TaskTracker es un servicio esclavo que se ejecuta en múltiples nodos. TaskTracker se comunica activamente con JobTracker, recibe trabajos y es responsable de ejecutar directamente cada tarea. TaskTracker debe ejecutarse en el DataNode de HDFS.

4. Respuesta del autor de Hadoop C Doug cortando

a) Martin Fowler

b) Kent Beck

c) Doug cortando

p>

p>

5. Tamaño de bloque predeterminado de HDFS Respuesta: B

a) 32 MB

b) 64 MB

c) 128 MB

(Debido a que la versión cambia rápidamente, la respuesta aquí es solo como referencia)

6. ¿Cuál de los siguientes suele ser el principal cuello de botella del clúster? Respuesta: disco C

a)CPU

p>

b) Red

c) Disco IO

d) Memoria

Análisis de este Pregunta:

En primer lugar, el objetivo del clúster es ahorrar costes y sustituir las minicomputadoras y mainframes por PC económicas. ¿Cuáles son las características de las minicomputadoras y mainframes?

1. La CPU tiene una gran potencia de procesamiento

2. La memoria es lo suficientemente grande

Por lo tanto, el cuello de botella de el cluster no puede ser a y d

3. La red es un recurso escaso, pero no es un cuello de botella.

4. Dado que big data se enfrenta a datos masivos, la lectura y escritura de datos requiere IO, y luego Hadoop generalmente realiza una copia de seguridad de 3 copias de datos, por lo que IO se verá comprometido.

7. ¿Qué es correcto acerca de SecondaryNameNode? Respuesta C

a) Es el modo de espera activo de NameNode

b) No tiene requisitos de memoria

p>

c) Su propósito es ayudar al NameNode a fusionar el registro de edición y reducir el tiempo de inicio del NameNode

d) El NameNode secundario debe implementarse en el mismo nodo que el NameNode .

Preguntas de opción múltiple:

8. ¿Cuál de las siguientes se puede utilizar como gestión de clústeres? Respuesta: ABD

a) Marioneta

> b )Pdsh

c) Cloudera Manager

d) Zookeeper

9. ¿Cuál de las siguientes opciones es correcta al configurar el conocimiento del rack? Respuesta ABC

a) Si hay un problema con un rack, no afectará la lectura y escritura de datos

b) Al escribir datos, se escribirán en el DataNode en un rack diferente

c) MapReduce obtendrá datos de red más cercanos a usted según el rack

10. ¿Cuál de las siguientes opciones es correcta cuando el cliente carga archivos?

a) Los datos se pasan al DataNode a través del NameNode

p>

b) El cliente divide el archivo en bloques y los carga en secuencia

c) Solo el cliente carga los datos a un DataNode, y luego el NameNode es responsable del trabajo de replicación del bloque

Análisis de esta pregunta:

El cliente inicia una solicitud de escritura de archivo a NameNode.

NameNode devuelve al Cliente información sobre el DataNode que administra en función del tamaño del archivo y la configuración del bloque de archivos.

El cliente divide el archivo en múltiples bloques y los escribe en cada bloque de DataNode en orden de acuerdo con la información de dirección del DataNode.

11. ¿Cuál de los siguientes es el modo de ejecución de Hadoop? Respuesta ABC

a) Versión independiente

b) Pseudodistribuida

c ) Distribuido

12. ¿Qué métodos proporciona Cloudera para instalar CDH Respuesta: ABCD

a) Administrador de Cloudera

b) Tarball

 c)Yum

 d)Rpm

Pregunta de verdadero o falso:

13. Los ganglios no solo pueden monitorear, sino también alarmar. (Correcto)

Análisis: El propósito de esta pregunta es probar la comprensión de Ganglia. En rigor, es correcto. Ganglia es el software de monitoreo más utilizado en entornos Linux. Es bueno para recopilar datos de nodos a bajo costo según las necesidades del usuario. Sin embargo, Ganglia no es bueno para advertir y notificar a los usuarios después de que ocurre un incidente. Los últimos ganglios ya tienen algunas funciones en esta zona. Pero Nagios es aún mejor avisando. Nagios es un software que es bueno para alertas y notificaciones tempranas. Al combinar Ganglia y Nagios, utilizar los datos recopilados por Ganglia como fuente de datos de Nagios y luego usar Nagios para enviar notificaciones de alerta temprana, se puede implementar perfectamente un conjunto completo de sistemas de monitoreo y gestión.

14. El tamaño del bloque no se puede modificar. (Error)

Análisis: se puede modificar. El archivo de configuración básico de Hadoop es hadoop-default.xml. De forma predeterminada, cuando se crea un trabajo, se creará la configuración del trabajo. Primero se lee en la configuración hadoop-default.xml y luego se lee la configuración de hadoop-site.xml (este archivo está configurado inicialmente como vacío). default.xml que debe anularse.

15. Nagios no puede monitorear los clústeres de Hadoop porque no proporciona soporte para Hadoop. (Error)

Análisis: Nagios es una herramienta de monitoreo de clústeres y una de las tres herramientas principales para la computación en la nube

16. Si NameNode termina inesperadamente, SecondaryNameNode tomará el control y permitirá el cluster siga funcionando. (Error)

Análisis: SecondaryNameNode es para ayudar a restaurar, no reemplazar, cómo restaurar, puede verificar

17. Cloudera CDH requiere pago.

(Error)

Análisis: El primer conjunto de productos pagos es Cloudera Enterpris. Cloudera Enterprise se presentó en la Cumbre de Hadoop celebrada en California, EE. UU., y mejoró las funciones de Hadoop con una serie de gestión privada y monitoreo. y herramientas de operación. Los cargos se basan en la suscripción del contrato y el precio varía según el tamaño del clúster de Hadoop utilizado.

18. Hadoop está desarrollado en Java, por lo que MapReduce solo admite la escritura en lenguaje Java. (Error)

Análisis: rhadoop está desarrollado en lenguaje R. MapReduce es un marco que puede entenderse como una idea y desarrollarse en otros lenguajes.

19. Hadoop admite lectura y escritura aleatoria de datos. (Incorrecto)

Análisis: Lucene admite lectura y escritura aleatoria, mientras que HDFS solo admite lectura aleatoria. Pero HBase puede acudir al rescate. HBase proporciona lectura y escritura aleatoria para resolver problemas que Hadoop no puede manejar. HBase ha sido diseñado desde cero para centrarse en varios problemas de escalabilidad: las tablas pueden ser muy altas, con miles de millones de filas de datos, también pueden ser muy anchas, con millones de columnas, pueden dividirse horizontalmente y ejecutarse en miles de automáticamente; replicar en un nodo de máquina comercial común. El esquema de una tabla es un reflejo directo del almacenamiento físico, lo que permite que el sistema mejore la serialización, el almacenamiento y la recuperación eficientes de las estructuras de datos.

20. NameNode es responsable de administrar los metadatos. Cada vez que el cliente realiza una solicitud de lectura o escritura, leerá desde el disco o escribirá información de metadatos y la enviará al cliente. (Error)

Análisis de esta pregunta:

NameNode no necesita leer metadatos del disco. Todos los datos están en la memoria. Lo que hay en el disco duro es solo el resultado de la serialización. Solo el nodo de nombre puede leerlo cada vez. Solo se leerá al inicio.

1) Escritura de archivos

El cliente inicia una solicitud de escritura de archivos a NameNode.

NameNode devuelve al Cliente información sobre el DataNode que administra en función del tamaño del archivo y la configuración del bloque de archivos.

El cliente divide el archivo en múltiples bloques y los escribe en cada bloque de DataNode en orden de acuerdo con la información de dirección del DataNode.

2) Lectura de archivos

El cliente inicia una solicitud de lectura de archivos a NameNode.

21. El disco local de NameNode guarda la información de ubicación de Block. (Personalmente creo que es correcto, otras opiniones son bienvenidas)

Análisis: DataNode es la unidad básica de almacenamiento de archivos. Almacena Block en el sistema de archivos local, guarda los metadatos de Block y periódicamente. Toda la información del bloque existente se envía a NameNode. NameNode devuelve la información del DataNode almacenada en el archivo.

El cliente lee la información del archivo.

22. DataNode mantiene comunicación con NameNode a través de conexiones largas. ( )

Esto es diferente: busco específicamente información útil al respecto. La información se proporciona a continuación como referencia.

Antes que nada, aclaremos el concepto:

(1). Conexión larga

El cliente y el servidor primero establecen una conexión de comunicación y no la desconectan. una vez establecida la conexión y luego Enviar y recibir mensajes. En este método, dado que la conexión de comunicación siempre existe, este método se utiliza a menudo para la comunicación punto a punto.

(2).Conexión corta

El cliente y el servidor solo establecen una conexión de comunicación para cada transacción de envío y recepción de mensajes, y se desconectan inmediatamente después de que se completa la transacción. Este método se utiliza a menudo para la comunicación punto a multipunto, como cuando varios clientes se conectan a un servidor.

23. Hadoop tiene estrictas medidas de seguridad y gestión de permisos para garantizar el funcionamiento normal del clúster. (Error)

Hadoop solo puede evitar que las personas buenas cometan errores, pero no puede evitar que las personas malas hagan cosas malas

24. El nodo esclavo necesita almacenar datos, por lo que. Cuanto más grande sea su disco, mejor. (Error)

Análisis: una vez que el nodo esclavo cae, la recuperación de datos es un problema difícil

25. El comando hadoop dfsadmin ?report se utiliza para detectar bloques dañados de HDFS.

(incorrecto)

26. La estrategia de programación predeterminada de Hadoop es FIFO (correcto)

27. Cada nodo del clúster debe estar equipado con RAID para evitar daños en un solo disco y afectar a todo el nodo correr. (Error)

Análisis: En primer lugar, para comprender qué es RAID, puede consultar la enciclopedia de matrices de discos. El error de esta frase es que es demasiado absoluta y debe analizarse caso por caso. La pregunta no es el foco, el conocimiento es lo más importante. Debido a que Hadoop tiene capacidades de redundancia, no es necesario equipar RAID a menos que sea muy estricto. Consulte la segunda pregunta para obtener más detalles.

28. Debido a que HDFS tiene múltiples copias, no hay un solo punto de problema para NameNode. (Error)

 29. Cada espacio del mapa es un hilo. (Error)

Análisis: En primer lugar, sabemos qué es un espacio para mapa. Espacio para mapa->espacio para mapa. El espacio para mapa es solo un valor lógico (org.apache.hadoop.mapred.TaskTracker.TaskLauncher.numFreeSlots). ), no un correspondiente Con un hilo o proceso

30 La división de entrada de Mapreduce es un bloque. (Error)

 31. El puerto de la interfaz de usuario web de NameNode es 50030, que inicia el servicio web a través de Jetty. (Error)

 32. HADOOP_HEAPSIZE en la variable de entorno Hadoop se utiliza para configurar la memoria de todos los subprocesos del demonio Hadoop. El valor predeterminado es 200 GB. (Error)

La memoria asignada uniformemente por hadoop a cada proceso demonio (namenode, secondnamenode, jobtracker, datanode, tasktracker) está configurada en hadoop-env.sh. El parámetro es HADOOP_HEAPSIZE y el valor predeterminado es 1000M. .

33. Cuando el DataNode se une al clúster por primera vez, si el registro informa una versión de archivo incompatible, el NameNode debe realizar la operación de formato de nombre de Hadoop para formatear el disco. (Error)

Análisis:

Primero comprenda la introducción, qué es ClusterID

ClusterID

Se agregó un nuevo identificador ClusterID para identificar todos los nodos en el cúmulo. Al formatear un Namenode, este identificador debe proporcionarse o generarse automáticamente. Esta ID se puede utilizar para formatear otros Namenodes que se unan al clúster.

Clasificación secundaria

El enfoque de las preguntas de algunos estudiantes no es el contenido del análisis anterior: el contenido es el siguiente:

Este informe de error indica la versión de Hadoop instalado en DataNode y otros Los nodos son inconsistentes, debe verificar la versión Hadoop de DataNode;