Colección de citas famosas - Slogan de motivación - Diccionario de datos de Hadoop

Diccionario de datos de Hadoop

Spark es un motor rápido y de uso general para procesar cantidades masivas de datos. Como tecnología de procesamiento de big data, Spark a menudo se compara con Hadoop.

Hadoop se ha convertido en el estándar de facto para la tecnología de big data. Hadoop MapReduce también es muy adecuado para el procesamiento por lotes de conjuntos de datos a gran escala, pero aún tiene algunos defectos. Las manifestaciones específicas incluyen:

1 y Hadoop MapRedue tienen capacidades de expresión limitadas. Todos los cálculos deben convertirse en dos operaciones: Mapear y Reducir. Estas dos operaciones no son adecuadas para todos los escenarios y es difícil describir el procesamiento de datos complejos.

2. Los costos de E/S del disco son muy altos. Hadoop MapReduce requiere que los datos se serialicen en el disco entre cada paso, por lo que el costo de E/S es muy alto. Esto hace que el análisis interactivo y los algoritmos iterativos sean muy costosos, y casi toda la optimización y el aprendizaje automático son iterativos. Por lo tanto, Hadoop MapReduce no es adecuado para análisis interactivos y aprendizaje automático.

3. El retraso informático es muy alto. Si desea realizar un trabajo más complejo, debe concatenar una serie de trabajos de MapReduce y ejecutarlos secuencialmente. Cada trabajo tiene una latencia alta y el siguiente trabajo solo puede comenzar después de que se completa el trabajo anterior. Por lo tanto, Hadoop MapReduce no es capaz de ofrecer servicios informáticos complejos y de varias etapas.

Spark se desarrolló a partir de la tecnología Hadoop MapReduce, heredó las ventajas de la computación paralela distribuida y mejoró muchas de las deficiencias de MapReduce. Las ventajas específicas son las siguientes:

1 y Spark proporcionan una amplia gama de tipos de operaciones de conjuntos de datos (más de 20 tipos), admiten las API de Java, Python y Scala, y admiten shells interactivos de Python y Scala. Más versátil que Hadoop.

2.Spark proporciona un mecanismo de almacenamiento en caché para admitir cálculos que requieren iteraciones repetidas o múltiples intercambios de datos, lo que reduce la sobrecarga de E/S de la lectura de datos. Spark utiliza el almacenamiento en caché en memoria para mejorar el rendimiento, por lo que el análisis interactivo es lo suficientemente rápido y el caché también mejora el rendimiento de los algoritmos iterativos, lo que hace que Spark sea ideal para tareas de teoría de datos, especialmente el aprendizaje automático.

3.Spark proporciona computación en memoria y coloca resultados intermedios en la memoria, lo que brinda una mayor eficiencia informática iterativa. Al utilizar un gráfico acíclico dirigido (DAG), un marco de programación que admite la computación paralela distribuida reduce la necesidad de escribir datos en el disco durante el proceso iterativo y mejora la eficiencia del procesamiento.

Además, Spark también se puede conectar sin problemas a Hadoop. Spark puede usar YARN como administrador de clúster y puede leer todos los datos de Hadoop como HDFS y HBase.

Spark se ha desarrollado rápidamente en los últimos años. En comparación con otras plataformas o marcos de big data, la base de código de Spark es la más activa. Hasta ahora, la última versión lanzada es Spark3.3.0.

También existen muchas herramientas de gobernanza de datos que utilizan la tecnología Spark para lograr una gobernanza de datos general y en tiempo real. Tomemos como ejemplo el robot de datos SoData lanzado por Feisuan. Es un conjunto de herramientas eficientes de gestión y desarrollo de datos que integran la integración en tiempo real, por lotes y por lotes, y pueden ayudar a las empresas a implementar rápidamente aplicaciones de datos.

En comparación con el proceso de procesamiento de datos tradicional, el robot de datos SoData implementa un mecanismo de sincronización de datos que integra flujo y lotes, lleva a cabo un desarrollo secundario en profundidad basado en el marco Spark y Flink y realiza la recopilación, integración y Conversión, la mejor experiencia de procesamiento por lotes y en tiempo real de todo el proceso de carga, procesamiento y descarga, con latencia de segundo nivel, estable y eficiente, con una latencia promedio de 5 a 10 segundos y respuesta rápida a los datos empresariales. necesidades de la aplicación.

Además de las ventajas del procesamiento de datos de Spark, la arquitectura Spark de SoData Data Robot también admite el desarrollo de Spark-SQL para generar tablas de diccionario de Spark mediante la ejecución de SQL desde varias fuentes de datos y la depuración durante el desarrollo, y admite la salida. cualquier resultado establecido en varias bases de datos. Los métodos visuales de operación, mantenimiento y desarrollo también pueden reducir en gran medida el umbral para el desarrollo, la gobernanza y la aplicación de datos, al tiempo que mejoran la eficiencia.

En la construcción de informatización de un hospital general, el robot de datos SoData completó un trabajo de migración de datos que originalmente tomaba de 8 a 9 horas en 5 minutos.

Actualmente, los robots de datos de SoData se han utilizado en muchas industrias, como las finanzas, la atención médica y la energía, y continuarán utilizando tecnologías innovadoras para brindar mejores y más rápidas experiencias de desarrollo de datos, gobernanza y aplicaciones a las organizaciones. en diversas industrias.