Pasos para construir un almacén de datos
2) Establecer el modelo de datos y diseño físico del data warehouse.
3. Definir fuentes de datos
4) Seleccionar la tecnología y la plataforma de almacenamiento de datos.
5) Extraer, purificar y transformar datos de bases de datos operativas en almacenes de datos.
6) Seleccionar herramientas de acceso y generación de informes.
7) Seleccione el software de conexión a la base de datos.
8) Seleccionar software de análisis y visualización de datos.
9) Actualizar el almacén de datos 1) Las herramientas de transformación de datos deben poder leer datos de varias fuentes de datos.
2) Admite archivos planos, archivos de índice y DBMS tradicionales.
3) Se pueden integrar como entrada datos de diferentes tipos de fuentes de datos.
4) Disponer de una interfaz de acceso a datos estandarizada.
5) Lo mejor es leer los datos del diccionario de datos.
6) El código generado por la herramienta debe ser mantenible en el entorno de desarrollo.
7) Solo se pueden extraer los datos que cumplan las condiciones especificadas y la parte especificada de los datos de origen.
8) La conversión del tipo de datos y del juego de caracteres se puede realizar durante la extracción.
9) Los campos derivados se pueden calcular y generar durante la extracción.
10) El sistema de gestión del almacén de datos se puede llamar automáticamente para extraer datos periódicamente, o los resultados se pueden generar como archivos planos.
11) La vitalidad y las capacidades de soporte de productos de los proveedores de software deben evaluarse cuidadosamente.
Principal proveedor de herramientas de extracción de datos: Prism Solutions. El pasaporte de Carlton. Empresa de Arquitectura de la Información.
EDA/SQL.SASInstituteInc. Las preguntas generales (no exactamente técnicas o culturales, pero sí importantes) incluyen, entre otras, las siguientes:
Qué tipo de análisis realizan los usuarios empresariales. quieres actuar?
¿Los datos que recopila ahora deben respaldar estos análisis?
¿Dónde están los datos?
¿Qué tan limpios están los datos?
¿Existen múltiples fuentes de datos para datos similares?
¿Qué estructura es mejor para un almacén de datos central (como dimensional o relacional)?
Las preguntas técnicas incluyen, entre otras, las siguientes:
¿Cuántos datos necesitas para circular en la red? ¿Se puede manejar?
¿Cuánto espacio en el disco duro se requiere?
¿Qué tan rápido debe ser el almacenamiento en el disco duro?
¿Usarás almacenamiento de estado sólido o almacenamiento virtual?