Colección de citas famosas - Frases motivadoras - Unidad de almacenamiento de datos

Unidad de almacenamiento de datos

Diferentes proyectos de una empresa pueden utilizar diferentes fuentes de datos, algunos en MySQL, otros en MongoDB y algunos incluso requieren datos de terceros.

Pero ahora quiero integrar los datos y analizarlos. En este momento, el almacén de datos (DW) resulta útil. Puede filtrar e integrar diversos datos comerciales y puede usarse para análisis de datos, extracción de datos e informes de datos.

En términos generales, un almacén de datos integra datos de múltiples fuentes de datos según ciertos temas. Debido a que los datos anteriores son diferentes, es necesario extraerlos, limpiarlos y transformarlos.

Los datos integrados no se pueden modificar a voluntad, solo se pueden analizar y deben actualizarse periódicamente.

Como dijimos anteriormente, las fuentes de datos que recibe el data warehouse son diferentes. Si queremos integrar necesitamos tres pasos: extracción, limpieza y transformación, que es ETL (Extract-Transform-Load).

El almacén de datos más utilizado en China es Hive, un almacén de datos de código abierto basado en Hadoop, que puede consultar y analizar datos de archivos almacenados en HDFS.

Hive puede proporcionar HiveQL al mundo exterior, que es un lenguaje de consulta similar al lenguaje SQL. Las declaraciones de HiveQL se pueden convertir en tareas de MapReduce en el momento de la consulta y estas tareas se pueden ejecutar en la capa de Hadoop.

La mayor ventaja de Hive es que es gratuito. ¿Qué pasa con otros almacenes de datos comerciales conocidos? Los ejemplos incluyen Oracle y DB2, siendo Teradata el líder de la industria.

El almacén de datos de Teradata admite una plataforma de procesamiento paralelo masivo (MPP), que puede procesar datos masivos a alta velocidad. De hecho, su rendimiento es mucho mayor que el de Hive. Las empresas solo necesitan centrarse en los negocios, ahorrar energía y maximizar el retorno de la inversión en tecnología de gestión.

Como se mencionó anteriormente, Hive es el almacén de datos de código abierto más famoso y es un componente importante en el ecosistema Hadoop.

En el ecosistema Hadoop, HDFS resuelve el problema del almacenamiento distribuido, MapReduce resuelve el problema de la computación distribuida y HBASE proporciona un método de almacenamiento NoSQL.

Sin embargo, si necesita consultar archivos en HDFS o tablas en HBASE, debe personalizar el método MapReduce. Hive es en realidad una capa intermedia además de HDFS, que permite al personal empresarial utilizar SQL directamente para realizar consultas.

Entonces Hive se carga mediante transformación de extracción de datos, que convierte SQL en tareas de MapReduce, que son directorios o archivos en HDFS.

La imagen de arriba es la arquitectura de Hive.

Hive incluye principalmente los siguientes modelos de datos:

¿Por qué este artículo es un almacén de datos? Comentar