Cómo empezar a utilizar big data
Big Data
Java: siempre que tenga algunos conocimientos básicos, no necesita tecnología Java profunda para generar big data. Aprender Java SE equivale a aprender big data.
Linux: debido a que el software relacionado con big data se ejecuta en Linux, debes aprender Linux con firmeza. Aprender bien Linux le resultará muy útil para dominar rápidamente las tecnologías relacionadas con big data. Le permitirá comprender mejor el entorno operativo y la configuración del entorno de red del software de big data como hadoop, hive, hbase y spark. , Para que pueda evitar muchos errores y aprender a comprender los scripts, pueda comprender y configurar grupos de big data más fácilmente. También le permitirá aprender nuevas tecnologías de big data más rápido en el futuro.
Hadoop: esta es una popular plataforma de procesamiento de big data que casi se ha convertido en sinónimo de big data, por lo que es imprescindible. Hadoop incluye varios componentes: HDFS, MapReduce y YARN. HDFS es donde se almacenan los datos, al igual que el disco duro de nuestra computadora. MapReduce procesa y calcula datos. Tiene una característica que, siempre que le dé tiempo, puede ejecutar todos los datos, pero es posible que el tiempo no sea muy rápido, por lo que se denomina procesamiento por lotes de datos.
Cuidador del zoológico: Esto es una panacea. Se utilizará al instalar HA de Hadoop y se utilizará en Hbase en el futuro. Generalmente se utiliza para almacenar cierta información de cooperación, es relativamente pequeña, generalmente no más de 1M. Todo el software que lo utiliza depende de ello. A nosotros personalmente sólo nos queda instalarlo correctamente y ponerlo a funcionar.
Mysql: Hemos terminado de aprender el procesamiento de big data. A continuación aprenderemos la base de datos mysql, una pequeña herramienta de procesamiento de datos, porque la usaremos cuando instalemos Hive más adelante. ¿Qué nivel de MySQL necesito dominar? Puede instalarlo en Linux, ejecutarlo, configurar permisos simples, cambiar la contraseña de root y crear una base de datos. Lo principal aquí es aprender la sintaxis de SQL, porque la sintaxis de Hive es muy similar a esta.
Sqoop: utilizado para importar datos de Mysql a Hadoop. Por supuesto, también puede exportar la tabla de datos Mysql directamente a un archivo y colocarla en HDFS sin esta operación. Por supuesto, cuando utilice Mysql en un entorno de producción, debe tener en cuenta su estrés.
Hive: esto es un artefacto para aquellos que entienden la sintaxis SQL. Le permite procesar big data fácilmente y no tiene que molestarse en escribir programas MapReduce. ¿Algunas personas dicen que es un cerdo? Casi como un cerdo. Solo domina uno.
Ahora que has aprendido sobre la urticaria, creo que necesitas esto. Le ayuda a administrar sus scripts de Hive o MapReduce y Spark, verifica que sus programas se estén ejecutando correctamente, le avisa cuando ocurren problemas, le ayuda a reintentar programas y, lo más importante, le ayuda a configurar las dependencias de las tareas. Creo que te gustará; de lo contrario, te sentirás como una mierda cuando mires ese montón de guiones y cronds densos.
Hbase: Es la base de datos NOSQL del ecosistema Hadoop. Sus datos se almacenan en forma de claves y valores, y las claves son únicas, por lo que pueden usarse para copiar los datos. Puede almacenar más datos que MYSQL. Por lo tanto, a menudo se utiliza como destino de almacenamiento una vez completado el procesamiento de big data.
Kafka: Esta es una gran herramienta para hacer colas. ¿Para qué es la cola? ¿Sabías que tienes que hacer cola para comprar entradas? Si hay demasiados datos, es necesario ponerlos en cola para su procesamiento para que otros estudiantes que trabajan con usted no griten. ¿Por qué me das tantos datos (por ejemplo, cientos de gigabytes de archivos)? ¿Qué tengo que hacer? No lo culpes porque no sabe cómo manejar big data. Puedes decirle que pongo los datos en una cola y los tomas uno por uno a medida que los usas, para que no se queje y optimice su programa de inmediato ya que es asunto suyo no procesarlos. No es la pregunta que hiciste. Por supuesto, también podemos utilizar esta herramienta para almacenar datos en línea en tiempo real en almacenamiento o HDFS.
En este punto, puede trabajar con una herramienta llamada Flume, que está diseñada específicamente para proporcionar un procesamiento de datos simple y escribirlos en varios receptores de datos (como Kafka).
Spark: se utiliza para compensar las deficiencias de la velocidad de procesamiento de datos basada en MapReduce. Incluye la carga de datos en la memoria para realizar cálculos, en lugar de leerlos desde un disco duro extremadamente lento y en evolución. Es particularmente adecuado para operaciones iterativas, por lo que el flujo del algoritmo es particularmente bueno. Está escrito en escala. Tanto el lenguaje Java como Scala pueden operarlo ya que ambos usan JVM.