¿Qué es un almacén de datos y cómo se divide en capas?
1 Mejore la eficiencia mediante el preprocesamiento de datos, porque el preprocesamiento generará datos redundantes.
2 Si las reglas comerciales del sistema empresarial cambian sin capas, afectará todo el proceso de limpieza de datos y provocará una gran carga de trabajo.
A través de la gestión jerárquica, el trabajo se completa gradualmente, simplificando la lógica de procesamiento de cada capa.
Capas de data warehouse estándar: ods (capa de almacenamiento temporal), pdw (capa de data warehouse), mid (capa de data mart) y app (capa de aplicación).
Ods: la capa de almacenamiento histórico es isomorfa con los datos del sistema de origen. La granularidad de los datos de esta capa es la más fina. Hay dos tipos de tablas en esta capa, una es para almacenar los datos que actualmente deben cargarse y la otra es para almacenar los datos procesados.
Pdw: Capa de almacén de datos. Sus datos son limpios y consistentes, es decir, datos limpios. Sus datos generalmente siguen la tercera forma normal de la base de datos y su granularidad es la misma que la de ods. Guardará todos los datos históricos en el sistema bi.
Medio: capa de data mart, organiza los datos según temas, normalmente datos de estrellas y copos de nieve. En términos de granularidad de los datos, se trata de datos ligeramente resumidos y no hay datos detallados. Desde una perspectiva amplia, incluye todos los volúmenes de negocio. Desde una perspectiva analítica, probablemente en los últimos años.
Aplicación: capa de aplicación, con alta granularidad de datos, no necesariamente cubre todos los datos comerciales, sino solo un subconjunto de los datos de la capa intermedia.
El propósito del almacén de datos es establecer un entorno de datos integrado para el análisis y brindar apoyo a las decisiones de las empresas. El contexto del almacén de datos también puede entenderse como: fuente de datos, almacén de datos y aplicación de datos.
El almacén de datos puede entenderse como una plataforma intermedia integrada de gestión de datos.
ETL (extra, transferencia y carga) es la tubería del almacén de datos y también puede considerarse la sangre del almacén de datos.
El almacenamiento del almacén de datos no necesita almacenar todos los datos sin procesar porque, por ejemplo, no es necesario almacenar datos de texto extensos, pero sí necesita almacenar datos detallados porque la demanda es variable y el El almacén de datos es Los datos importados deben ordenarse y transformarse para que estén orientados al tema, porque los datos en la base de datos front-end están optimizados en función de operaciones OLTP, que pueden no ser adecuadas para el análisis, mientras que la forma organizativa orientada al tema es propicio para el análisis.
El modelo de datos multidimensional significa consulta cruzada y segmentación multidimensional. Las aplicaciones generalmente se basan en el proceso de análisis en línea OLAP, y los mercados de datos dirigidos a grupos de demanda específicos se construirán sobre la base de modelos de datos multidimensionales.
La presentación de informes consiste en presentar datos agregados y datos de análisis multidimensionales en informes, proporcionando datos simples e intuitivos.
Los metadatos, también conocidos como datos interpretados o diccionario de datos, registrarán la definición del modelo en el almacén de datos, la relación de mapeo entre diferentes niveles y monitorearán el estado de los datos del almacén de datos y la tarea en ejecución. estado de etl. Normalmente, los metadatos se almacenan y gestionan de manera uniforme a través de un repositorio de metadatos.