Modelo lógico de base de datos
El modelo relacional de base de datos (modelo lógico de base de datos) consiste en convertir el modelo conceptual de datos en una estructura lógica de base de datos soportada por el sistema de gestión de bases de datos (DBMS) utilizado, es decir, expresar el diagrama E-R en un diagrama relacional. modelo de base de datos. El resultado del diseño lógico de la base de datos no es único y la estructura de la base de datos debe optimizarse utilizando la teoría de la estandarización.
En el modelo relacional, la estructura lógica de la base de datos es una tabla bidimensional. En una base de datos, se llama modelo relacional a una tabla bidimensional que cumple las siguientes condiciones:
1) Los componentes de cada columna son datos del mismo tipo
2) El orden de las columnas puede ser arbitrario;
3) El orden de las filas puede ser arbitrario
4) Los componentes de la tabla son los elementos de datos más pequeños que no se pueden dividir más; , es decir, no se permiten subtablas en la tabla;
5) Dos filas cualesquiera de la tabla no pueden ser exactamente iguales.
Se puede ver que los datos del perfil del estudio geofísico aéreo ordenados no cumplen con la condición del modelo relacional de la base de datos 3 "el orden de las filas puede ser arbitrario". Por lo tanto, no se puede simplemente usar directamente la base de datos relacional. (como Oracle, SQL Server, Sybase, etc.) para administrar los datos del perfil, el método de almacenamiento de datos en la base de datos debe cambiarse a un almacenamiento de campo grande para garantizar que las características de orden de los datos del perfil no cambien debido a operaciones como como agregar y eliminar datos de la base de datos.
1. Almacenamiento de campo grande
(1) Tecnología de almacenamiento de campo grande
La tecnología LOB (objeto grande) de campo grande es el uso especializado de Oracle para almacenar y procesar objetos grandes. Objetos Tecnología de gestión de datos para diversos tipos de datos (como materiales multimedia, materiales de imágenes, materiales de documentos, etc.). LOB incluye dos tipos: interno y externo. El LOB interno se divide en tres tipos de datos: CLOB (tipo de carácter) y BLOB (tipo binario). Los datos se almacenan en la base de datos y admiten operaciones de transacción. El LOB externo solo tiene el tipo BFILE y sus datos se almacenan en el sistema operativo. sistema y no admite operaciones de transacción. La longitud máxima de los datos almacenados LOB puede alcanzar 4G bytes y las columnas nulas (sin datos almacenados) no ocupan espacio (Figura 2-6).
Figura 2-6 Diagrama esquemático de almacenamiento de campo grande
Debido a que los LOB externos se almacenan en archivos del sistema operativo, su seguridad es peor que la de los LOB internos. Además, el almacenamiento de campos grandes admite operaciones de transacciones (compromiso y reversión por lotes, etc.), mientras que los LOB externos no admiten operaciones de transacciones. Por lo tanto, los datos del perfil de los estudios geofísicos aéreos se almacenan mediante BLOB. Para los tipos BLOB, si la cantidad de datos es inferior a 4000 bytes, la base de datos normalmente utiliza almacenamiento en fila, mientras que si la cantidad de datos es superior a 4000 bytes, se utiliza almacenamiento fuera de fila. Para analizar los datos del perfil del estudio geofísico aéreo, cada dato de valor de campo ocupa 4 bytes (precisión simple). La tasa de muestreo de datos aeromagnéticos actual es de 10 veces/s, y 4000 bytes solo pueden almacenar cientos de datos en general; mide cada El tiempo de vuelo de cada línea de medición es de al menos 10 minutos y el volumen de datos de cada línea de medición es mucho mayor que 4000 bytes. Por lo tanto, los datos del perfil del estudio geofísico aéreo adoptan un almacenamiento fuera de fila, es decir, la columna de campo grande especifica el parámetro de almacenamiento "Desactivar almacenamiento en fila".
Debido a la longitud variable de los tipos de campos grandes, la longitud máxima puede ser 4G. Supongamos que el tiempo de vuelo de la línea de encuesta es T, la tasa de muestreo del valor de campo es n veces/s y el volumen de datos del valor de campo de la línea de encuesta es 4Tn, por lo que 4Tn≤4G. El tiempo de vuelo T de una sola línea de estudio no excederá las 10 h (36000 s, una salida de estudio geofísico aéreo volará al menos 1 viaje de ida y vuelta a 2 líneas de estudio), entonces la tasa de muestreo de los valores de campo n≤4G/4T=4 ×1024×1024×1024/4 ×36000 veces/s=29826 veces/s. El uso de campos grandes para almacenar datos de medición no solo puede reducir la cantidad de registros en la tabla de datos y mejorar la eficiencia de las consultas, sino que también permite una expansión ilimitada de la frecuencia de muestreo.
(2) Aplicación de tecnología de almacenamiento de campo a gran escala
Debido a la gran cantidad de datos de estudios geofísicos aéreos, los datos de estudios aeromagnéticos existentes se pueden almacenar en el método de punto de referencia (almacenamiento de puntos ). Cientos de millones de registros de datos.
Si se utiliza el método de almacenamiento del punto de muestreo de datos del campo magnético (denominado "método de almacenamiento del valor del campo"), el número de registros = (tasa de muestreo de datos del campo magnético/tasa de muestreo de coordenadas El número de registros en el método de almacenamiento del punto alcanza). miles de millones de registros de datos, y con el tiempo Con la expansión de la tasa de muestreo de datos y el cifrado de los puntos de medición, la cantidad de datos de estudios geofísicos aéreos ha mostrado una tendencia de rápido crecimiento a lo largo del tiempo. Obviamente, si se utiliza una estructura de tabla convencional para el almacenamiento, inevitablemente dificultará mucho el almacenamiento, la gestión, la recuperación, la navegación y la extracción de datos. Por otro lado, en términos de requisitos de aplicación profesional para la prospección geofísica aérea, rara vez se realizan operaciones como el cálculo y análisis de datos de valor de campo de un único punto de medición. Generalmente, se requieren al menos una línea de estudio o más líneas de estudio. de las veces, se requiere toda el área de estudio. Los datos del valor de campo se pueden utilizar para polarización, extensión hacia arriba, ajuste directo e inverso, etc.
Por lo tanto, al diseñar la estructura de la tabla de la base de datos de prospección geofísica aérea, cambiamos el concepto anterior de utilizar registros de datos de puntos de referencia o puntos de valor de campo como el objeto de gestión mínimo de la base de datos. Adoptamos un gran almacenamiento de campo. tecnología y líneas topográficas utilizadas como objeto mínimo de gestión de la base de datos. El objeto de gestión almacena los datos de medición en la línea topográfica, como los datos de coordenadas y los datos del campo magnético y de gravedad, en los campos grandes correspondientes. En la construcción de una base de datos de prospección geofísica aérea, se utiliza ampliamente la tecnología de almacenamiento de campo grande de la base de datos (para obtener más detalles, consulte "Diseño de la estructura de la base de datos del sistema de información de prospección geofísica aeronáutica").
(3) Eficiencia del almacenamiento de campo a gran escala
Tome los datos de estudios aeromagnéticos como ejemplo para analizar las ventajas de la tecnología de almacenamiento de campo a gran escala. Si los datos de la línea de levantamiento se almacenan en el modo de almacenamiento de valores de campo, cada registro contiene el número de pedido, el número de línea de levantamiento, el número de referencia, las coordenadas geográficas, las coordenadas proyectadas, los datos del campo magnético, etc. Dado que la tasa de muestreo de los datos de coordenadas es 2 veces/s , la velocidad de muestreo de los datos del campo magnético es 10 veces/s, entre cada 5 datos del campo magnético, solo los primeros datos del campo magnético tienen datos de coordenadas y los otros 4 datos de coordenadas están interpolados, por lo que se generará una gran cantidad de datos de coordenadas redundantes. en el registro de línea de encuesta. El número de registros de datos de líneas de levantamiento almacenados en el método de almacenamiento de puntos es igual al número de puntos de referencia en línea. Si se utiliza el método de almacenamiento de campo grande, los datos de una línea de levantamiento solo se almacenan como 1 registro de datos (Figura 2-7). Generalmente, la cantidad de puntos de encuesta en una línea de encuesta es de aproximadamente diez mil, o incluso más. Se puede ver que el uso de un gran almacenamiento de campo reduce en gran medida la cantidad de registros de almacenamiento de datos de la línea de encuesta y mejora la eficiencia del acceso a los datos.
Tomando como ejemplo dos líneas de seguimiento en un área de medición determinada, se utilizaron tres métodos para probar la eficiencia del almacenamiento de datos de la base de datos. La tasa de muestreo de los datos del campo magnético es de 10 veces/s, la tasa de muestreo de los datos de coordenadas es de 2 veces/s y hay un total de 8801 puntos de referencia en las dos líneas de estudio. La información de coordenadas se interpola primero cuando se almacena en el modo de valor de campo, de modo que cada dato de valor de campo tenga sus propias coordenadas, y luego se almacena en la base de datos. Hay 44.005 registros de datos en total, el tiempo de escritura en la base de datos es de 57,22 segundos. el tiempo de lectura es de 1,03 s. El segundo método consiste en almacenar en forma de puntos de muestreo. Hay 8801 registros. El tiempo de escritura en la base de datos es de 9,47 segundos y el tiempo de lectura es de 0,91 segundos. La tercera forma es almacenarlo en forma de un campo grande, con solo 2 registros. Se necesitan 1,03 s para escribir en la base de datos y el tiempo de lectura es 0,44 s (Tabla 2-2). Los datos de campo grandes almacenan la menor cantidad de registros y tienen la mayor eficiencia de acceso. El efecto de la prueba es más obvio cuando se utilizan datos de toda el área de prueba.
Tabla 2-2 Comparación de la eficiencia de acceso de tres métodos de almacenamiento de datos
Figura 2-7 Diagrama esquemático del método de almacenamiento de campo grande
2.
p>Las claves primarias y externas son el núcleo para establecer relaciones entre tablas en una base de datos relacional. En el proceso de construcción de una base de datos espacial de prospección geofísica aérea, existen tres formas de descripción de las relaciones entre clases de entidades, entre clases de entidades y clases de objetos, y entre clases de objetos y clases de objetos, a saber, relaciones topológicas: descripción de clases de entidades. relaciones de adyacencia y conectividad con clases de entidades; relaciones de superposición, que describen las relaciones de intersección, inclusión y clasificación entre clases de entidades, que describen las relaciones de derivación entre clases de objetos; Las dos primeras relaciones son relaciones establecidas utilizando el modelo de datos espaciales, mientras que la relación de afiliación es la relación entre clases de objetos establecida a través de claves primarias. Al establecer una relación uno a uno o uno a muchos entre tablas, es necesario determinar un campo único en toda la tabla de la base de datos como clave principal (clave principal).
Según el modelo tradicional de gestión de archivos de datos geofísicos aéreos, a cada proyecto se le asigna un número natural como número de archivo, y todos los datos del proyecto están vinculados a este número de archivo.
Los números de expediente de los proyectos de exploración y de los proyectos de investigación científica se numeran de forma independiente y ambos comienzan desde 001. Además de los motivos de gestión manual, hay situaciones en las que un proyecto tiene dos números de archivo y dos proyectos tienen un número de archivo. Por lo tanto, la correspondencia actual entre el número de archivo y el proyecto no es única y no se puede utilizar como identificador único del proyecto. proyecto, es decir, no se puede utilizar como clave principal de una tabla de base de datos. El número de proyecto no se puede utilizar como clave principal de la tabla de la base de datos. El número de proyecto es solo en los últimos diez años.
Con base en los factores anteriores y las características jerárquicas y clasificadas de los proyectos, se propone un método para construir un código de identificación único del proyecto (denominado "identificación del proyecto"), y este código se utiliza como código principal. clave de la tabla de la base de datos.
Identificación del proyecto (clave principal): categoría del proyecto AGS (2 dígitos) año de inicio del proyecto (4 dígitos) número de archivo (6 dígitos)
Significado de la identificación: AGS - prospección geofísica aérea Abreviado código;
Categoría de proyecto: código de 2 dígitos, 01 representa proyecto de exploración, 02 representa proyecto de investigación científica;
Año de inicio: código de 4 dígitos, año número de inicio del proyecto;
Número de archivo: un código de 6 dígitos Para conectarse con el método de gestión de proyectos tradicional, los últimos 3 a 4 dígitos son el número de archivo en el modo de gestión de archivos del proyecto. Las partes que faltan se rellenan con ceros. .
El código de 15 dígitos anterior es la identificación del proyecto del primer nivel. La identificación del proyecto del segundo nivel y de los niveles inferiores es un código de 2 dígitos extendido sobre la base del nivel superior. Identificación del proyecto, separada por un "." En encendido, el número es el número de serie del proyecto de nivel. La identificación del proyecto se define como un código de 30 dígitos, que es aplicable a proyectos dentro del nivel seis. Por ejemplo: AGS022004000576.08.04.02, indicando que el proyecto es el octavo tema (proyecto secundario) y el cuarto subtema (proyecto de tercer nivel) del proyecto de investigación de exploración geofísica aérea (proyecto de primer nivel) con número de expediente 576. realizado en 2004. 2 temas. Se puede observar que el identificador de proyecto no es solo una palabra clave que establece relaciones entre tablas, sino que también expresa la afiliación entre proyectos en diferentes niveles. Durante el desarrollo del software del sistema, esta relación se utiliza para generar un directorio de árbol jerárquico de proyectos. Los usuarios pueden ver las relaciones jerárquicas de los proyectos de un vistazo y facilitar las consultas de proyectos.
Una vez determinada la clave primaria de la base de datos, es necesario determinar en consecuencia la composición de la clave primaria conjunta y su método de expresión. La llamada clave primaria conjunta es el identificador único de los datos. Se seleccionan dos o más campos como clave primaria en una tabla de base de datos. Dado que la mayoría de los datos geofísicos aéreos están relacionados con la identificación del proyecto, y existen muchos tipos de datos y clasificaciones complejas, depender únicamente de la clave primaria para determinar la unicidad de los registros en la tabla de la base de datos requerirá inevitablemente la construcción de un sistema extremadamente complejo. clave primaria.Este método no es propicio para el establecimiento de la clave primaria. Las operaciones de datos causarán una gran redundancia de datos. El uso razonable de la tecnología de clave primaria conjunta puede resolver eficazmente el problema de los datos únicos. Tome los materiales de presentación del proyecto como ejemplo. Los materiales enviados se dividen en materiales de texto, materiales gráficos y materiales multimedia. Clasificamos y numeramos los materiales. Por ejemplo, 100 representa materiales de texto (110 - documento mundial, 120 - documento PDF). 200 representa datos de mapas (210 - datos geográficos básicos, 220 - datos geológicos básicos, 230 - mapa de líneas de seguimiento, 240 - mapa de perfil, 250 - mapa de contorno, etc.), 300 representa datos de medios (310 - documento PPT, 320 - fotos , etc.), el primer dígito (centenas) indica el tipo de material, y el segundo al tercer dígito indican el número de serie de este tipo de material.
En la gestión de bases de datos y la consulta de datos del proyecto, la identificación del proyecto y el número de clasificación de datos se utilizan como clave principal conjunta (Figura 2-8), que puede realizar de manera eficiente la consulta de datos complejos. La tecnología de clave primaria conjunta se utiliza en muchos lugares de todo el sistema de base de datos (consulta de proyecto, extracción de datos y otros módulos).
Figura 2-8 Ejemplo de clave primaria conjunta
3. Estandarización de la información
Para lograr el intercambio de datos, en el proceso de modelado de la base de datos geofísica aérea, hizo referencia y citó casi un centenar de estándares nacionales de informatización y compiló 4 estándares centrales de informatización y 1 guía de trabajo de informatización de mapas.
(1) Normas de información nacionales citadas
1) Códigos de clasificación de terminología geológica y mineral: exploración geofísica, exploración geoquímica, geotectónica, ingeniería geológica, cristalografía y mineralogía, depósitos minerales, hidrogeología, petrología, geología, etc.
2) Clasificación y códigos de datos de información básica nacional, clasificación y códigos de datos de información básica de la tierra, símbolos técnicos de estudios geofísicos, especificaciones de estudios de gravedad del suelo, reglamentos técnicos de estudios magnéticos terrestres, reglamentos técnicos de estudios magnéticos de alta precisión del suelo, Especificaciones de estudios de gravedad a gran escala, terminología básica de tecnología de información geográfica, representación estándar de latitud, longitud y elevación de ubicaciones de puntos geográficos, clasificación de nombres de lugares y reglas de compilación de códigos de categorías.
3) Formato de intercambio de datos geoespaciales; formato de intercambio de datos de mapas de base geográfica digital matemático; formato de archivo de atributos y capa de mapas geológicos digitales.
(2) Los estándares de información establecidos por este sistema
Los “Estándares de Clasificación de Elementos de Datos Espaciales y de Clasificación de Objetos de Prospección Geofísica Aérea” y la “Clasificación de Gestión de Proyectos y Gestión de Datos de Prospección Geofísica Aérea” Se compilaron los "Códigos Estándares", "Estándares de Códigos de Clasificación de Exploración Geofísica Aérea", "Estándares de Metadatos del Sistema de Información de Exploración Geofísica Aérea", "Guía de Trabajo de Informatización de Mapas de Exploración Geofísica Aérea", con el fin de intercambiar información con otros sistemas de aplicación y lograr el máximo intercambio de datos de la base de datos.
Estándares de clasificación de clases de objetos y clases de entidades de datos espaciales de prospección geofísica aérea: basándose en métodos de prospección geofísica, procesos de procesamiento de datos y métodos y procesos de interpretación de inferencias, los datos relacionados con SIG se dividen en diferentes tipos de clases de entidades. datos de clase de objeto, nombre uniformemente clases de entidad y clases de objetos según la profesión, escala y contenido de datos, de modo que el nombre de cada clase de entidad y clase de objeto en la base de datos espacial sea único y evite nombres duplicados. Especifique la estructura de la tabla de la base de datos de clase de entidad-clase de objeto y el tipo de valor del elemento de datos.
Estándares de código de clasificación para la gestión de proyectos de prospección geofísica aérea y la gestión de datos: estipula el contenido relevante de la gestión de proyectos de prospección geofísica aérea y la gestión de datos, incluido el establecimiento, diseño, implementación, resultados y revisión del proyecto de prospección geofísica aérea. proyectos y proyectos de investigación científica, el contenido en todo el proceso de gestión del proyecto, como la recopilación e intercambio de datos, así como el contenido y los códigos de elementos de datos en el proceso de gestión y servicio de datos, como el archivo, envío, destrucción y préstamo del proyecto. datos de resultados y datos recopilados.
Estándar del código de clasificación de exploración geofísica aeronáutica: En el "Código de Clasificación de Terminología Geológica y Mineral Exploración Geofísica" (Norma Nacional GB/T9649.28-1998), se ha incluido la recopilación de datos relacionados con los aspectos profesionales del peso aeromagnético y aeronáutico. agregado, parámetros de propiedades físicas, métodos y medios, instrumentos y equipos, interpretación de datos, dibujos y otros contenidos y códigos de elementos de datos.
Estándar de metadatos del sistema de información de prospección geofísica aeronáutica: estipula el contenido de los metadatos (identificación de datos, contenido, calidad, estado y otras características relevantes) para la gestión y servicios de datos espaciales de prospección geofísica aeronáutica.
IV. Modelo de datos de línea de seguimiento
(1) Estructura del modelo de línea de seguimiento
El levantamiento geofísico aéreo consiste en organizar los datos del levantamiento en el área de levantamiento en función de la escala de encuesta. Neto (línea de medición y línea de corte). Cuando la aeronave vuela a lo largo de la línea de estudio diseñada para la medición, el sistema de recopilación de datos geofísicos aéreos recopila la ubicación geográfica, la altitud y diversa información de campo geofísico de los puntos de muestreo de acuerdo con una determinada tasa de muestreo. El método de separación de datos de atributos se utiliza para separar la información de ubicación geográfica de la línea de reconocimiento de los datos del estudio geofísico aéreo para formar una tabla de clases de entidad de línea de seguimiento. En esta tabla, solo se almacenan los datos relacionados con la clase de entidad de línea de seguimiento, como por ejemplo. identificación del proyecto, número de área de estudio, número de línea de estudio, tipo de línea de estudio (utilizada para distinguir líneas de estudio, líneas de corte, líneas de diferentes altitudes, líneas repetidas, etc.), coordenadas, valores de altitud, etc. La línea de seguimiento (campo magnético, campo de gravedad, datos básicos) se almacena en sus propias tablas bidimensionales en forma de campos grandes. Comparten líneas de seguimiento, lo que resuelve el problema de almacenamiento de datos de estudios geofísicos aéreos ordenados y de múltiples fuentes con diferentes. tasas de muestreo Al satisfacer el espacio de clases de entidad Durante la consulta, el método de almacenamiento de datos está unificado (Figura 2-9). La clase de entidad de línea de seguimiento pertenece a la clase de entidad del área de estudio y existe una relación de topología espacial (inclusión) entre ellas. Las áreas de estudio están subordinadas a los proyectos de exploración. Cada proyecto de estudio tiene al menos un área de estudio y existe una relación de uno a muchos entre ellos. La información relevante del proyecto se almacena en la tabla de clases de objetos de información general del proyecto y varias tablas están conectadas a través de identificadores de proyecto.
Figura 2-9 Estructura del modelo de datos de línea de seguimiento
(2) Modelo UML de línea de seguimiento
Lenguaje de modelado unificado UML (Unified Modeling Language) Es un lenguaje de modelado bien definido, fácil de expresar, potente y de aplicación universal. Incorpora nuevas ideas, nuevos métodos y nuevas tecnologías en el campo de la ingeniería de software. UML es el lenguaje de modelado estándar dominante en el campo de la tecnología orientada a objetos y se ha convertido en el estándar de la industria para los lenguajes de modelado visual. Basado en UML, ESRI define paquetes de ArcGIS, bibliotecas de clases y principios de extensión para el modelado de bases de datos espaciales.
Figura 2-10 Diagrama de estructura del modelo lógico de la tabla de la base de datos relacionada con la línea de seguimiento.
Después de determinar el modelo de datos de la línea de seguimiento, basándose en él, use UML para completar la relación con la línea de seguimiento La información general relevante del proyecto, la información del área de estudio, los datos originales y otros diseños del modelo lógico de la tabla de la base de datos (Figura 2-10).
Cuando se genera un esquema de Geodatabase a partir de un modelo UML, cada clase en el modelo genera una clase de entidad o clase de objeto. Los atributos de una clase se asignan a campos de una clase de entidad o clase de objeto. No es necesario crear repetidamente los campos incluidos en los atributos de la clase base en las clases heredadas. Por ejemplo, si cada clase incluye campos como la identificación del proyecto, puede crear una clase base que contenga atributos públicos y otras clases heredan los atributos públicos de esta clase sin repetir los atributos contenidos en la clase base. Debido a que la clase base no tiene una clase de entidad o clase de objeto correspondiente, la clase base se establece en un tipo abstracto. La relación entre clases de entidad está representada por relaciones de dependencia.
5. Modelo lógico de base de datos
La estructura lógica de una base de datos relacional está compuesta por un conjunto de patrones relacionales, por lo que se realiza la conversión de la estructura conceptual a la estructura lógica de la relacional. La base de datos es convertir lo que se obtiene del diseño conceptual. La estructura conceptual (diagrama ER) se convierte en un patrón relacional UML equivalente (Figura 2-11). En el diagrama del modelo UML, los conjuntos de datos de entidades están representados por paquetes estáticos en el espacio de trabajo Geodatabase. Los paquetes de conjuntos de características no se pueden anidar entre sí. Para facilitar la organización, después de generar el modelo físico, el anidamiento se personaliza en el paquete del conjunto de datos de características. Los conjuntos de datos de entidades están relacionados con referencias espaciales, pero las referencias espaciales no se pueden expresar en UML. Las clases de entidad y las tablas bidimensionales se crean en forma de clases. La diferencia es que las clases de entidad heredan los atributos de la Clase de entidad, mientras que las tablas bidimensionales heredan los atributos del Objeto. Para expresar atributos adicionales de cada elemento, como configurar la longitud de la cadena de un campo de atributo de carácter y configurar el tipo de geometría (punto, línea o polígono) de una clase de entidad, debe usar el valor de etiqueta de elemento predefinido por la Geodatabase.
Figura 2-11 Conversión de relaciones de diseño lógico
Basado en el análisis de las relaciones lógicas internas de datos geofísicos aéreos, el Lenguaje Unificado de Modelado (UML) se utiliza para construir clases de relaciones entre objetos de entidad de datos. Se define el modelo lógico de la base de datos geofísica aérea (Figura 2-12).