Colección de citas famosas - Libros antiguos - Estándares de metadatos

Estándares de metadatos

1. Marco de organización de recursos de biblioteca digital

2. Marco de aplicación y desarrollo de metadatos

El significado básico de metadatos (metadatos) es "sobre datos" " data";

Los metadatos proporcionan métodos de descripción y herramientas de recuperación estandarizados y universales para diversas formas de unidades de información digital y colecciones de recursos;

Los metadatos se distribuyen y se componen de múltiples Un sistema de información (como como biblioteca digital) compuesta orgánicamente de recursos digitales proporciona herramientas y enlaces de integración.

Una biblioteca digital sin metadatos será un desastre y no podrá proporcionar una recuperación y procesamiento efectivos.

3. Entorno de aplicación de metadatos

3.1 Propósito de la aplicación de metadatos

(1) Descubrimiento y identificación, dedicado principalmente a cómo ayudar a las personas a buscar y confirmar los recursos. Cuando se requiere, los elementos de datos a menudo se limitan a información simple como autor, título, tema, ubicación, etc. Dublin Core es un representante típico.

(2) La catalogación se utiliza para proporcionar una descripción detallada y completa de la unidad de datos. Los elementos de datos incluyen contenido, soporte, ubicación y métodos de adquisición, métodos de producción y utilización, e incluso aspectos relacionados. etc., suelen tener una gran cantidad de elementos de datos. MARC, GILS y FGDC/CSDGM son representantes típicos de este tipo de metadatos.

(3) La administración de recursos (Administración de recursos) admite la gestión del almacenamiento y uso de los recursos. Además de la información de descripción relativamente completa, los elementos de datos a menudo incluyen la gestión de derechos (Administración de derechos/privacidad) y firmas electrónicas (. Firma Digital), evaluación de recursos (Sello de Aprobación/Calificación), gestión de uso (Gestión de Acceso), auditoría de pagos (Pago y Contabilidad) y otros aspectos de la información.

(4) La protección de recursos y la preservación a largo plazo (preservación y archivo) respaldan la preservación a largo plazo de los recursos. Además de describir y confirmar los recursos, los elementos de datos a menudo incluyen información de formato detallada, información de producción y protección. Condiciones, métodos de conversión (Métodos de migración), responsabilidades de almacenamiento, etc.

3.2 Aplicación de metadatos en diferentes campos Según las características de los datos y las necesidades de aplicación de los diferentes campos, han aparecido muchos formatos de metadatos en varios campos desde la década de 1990

Por ejemplo:

Recursos en línea: Dublin Core, IAFA Template, CDF, Web Collections

Materiales documentales: MARC (con 856 Field), Dublin Core

Humanidades: TEI Header

Conjunto de datos de ciencias sociales: Libro de códigos ICPSR SGML

Museos y obras de arte: CIMI, CDWA, conjunto de elementos RLG REACH, VRA Core

Información gubernamental: GILS

Información geoespacial: FGDC/CSDGM

Imágenes digitales: metadatos MOA2, metadatos CDL, formato de archivos abiertos, VRA Core, metadatos técnicos NISO/CLIR/RLG para imágenes

Colección de archivos con recursos: EAD

Informe técnico: RFC 1807

Imágenes continuas: MPEG-7

3.3 Formato de metadatos a nivel de aplicación

Metadatos en diferentes Los campos se encuentran en diferentes etapas de estandarización:

En términos de descripción de recursos de red, Dublin Core se ha convertido en un estándar de facto ampliamente aceptado y aplicado después de años de esfuerzos internacionales;

En términos de información gubernamental, debido a la vigorosa promoción del gobierno de los EE. UU. y la implementación de leyes y estándares relevantes, GILS se ha convertido en un estándar de descripción de información gubernamental y se ha utilizado en gran medida en varios países del mundo. FGDC/ para el procesamiento de información geoespacial.

Sin embargo, en algunos campos, debido al rápido desarrollo y los cambios de la tecnología, todavía existen múltiples soluciones en competencia. Un ejemplo típico son los metadatos de imágenes digitales. de las normas propuestas se encuentran en etapa de experimentación y mejora.

3.4 La cuestión de la "estandarización" del formato de metadatos

La experiencia en aplicaciones y desarrollo de metadatos muestra que es difícil tener un formato de metadatos unificado para satisfacer las necesidades de descripción de datos de todos los campos; incluso en el mismo campo, o es posible que se requieran formatos de metadatos diferentes pero mutuamente convertibles para diferentes propósitos.

Al mismo tiempo, el estándar de formato de metadatos de planificación centralizada unificada no es adecuado para el entorno de Internet y no favorece el uso completo de los mecanismos y diversas fuerzas del mercado.

Sin embargo, en el mismo campo se debe luchar por la "estandarización" y en diferentes campos, se deben resolver adecuadamente los problemas de interoperabilidad de diferentes formatos.

4. Estructura de metadatos

4.1 Método de definición de estructura general Un formato de metadatos se define mediante una estructura de varios niveles:

(1) Estructura de contenido), que describe los elementos constitutivos de los Metadatos y sus estándares de definición.

(2) Estructura de sintaxis, define la estructura de metadatos y cómo describir esta estructura.

(3) Estructura Semántica, que define el método de descripción específico de los elementos de Metadatos.

4.2 Estructura de contenido

La estructura de contenido define los elementos constitutivos de los metadatos, que pueden incluir: elementos descriptivos, elementos técnicos, elementos administrativos, elementos estructurales (como lenguaje de codificación, espacio de nombres, enlaces). a unidades de datos, etc.).

Es probable que estos elementos de datos se seleccionen en función de ciertos estándares, por lo que esto debe explicarse en la estructura del contenido de los metadatos, como el ISBD basado en el registro MARC, el ISAD (G) al que hace referencia el EAD, y basado en el Manual de preparación de datos del ICPSR.

4.3 Estructura sintáctica

La estructura sintáctica define la estructura del formato y su método de descripción, como la organización segmentada de elementos, las reglas para seleccionar y usar elementos y el método de descripción de elementos. (por ejemplo, Dublin Core utiliza el estándar ISO/IEC 11179), métodos de descripción de estructuras de elementos (como estructura de registros MARC, estructura SGML, estructura XML), lenguajes de descripción de declaraciones estructurales (como la notación EBNF), etc.

A veces, la estructura sintáctica necesita indicar si los metadatos están agrupados con el objeto de datos descrito o si existen como datos separados pero vinculados al objeto de datos de una forma determinada. También puede describir y definir estándares. Estructuras DTD y espacios de nombres y otros métodos de vinculación.

4.4 Estructura semántica La estructura semántica define el método de descripción específico de los elementos, como los estándares, las mejores prácticas (Best Practices) o los requisitos de descripción personalizados (Instrucciones) utilizados al describir elementos.

Algunos formatos de metadatos definen por sí mismos estructuras semánticas, mientras que otros tienen estructuras semánticas especificadas por unidades adoptantes específicas. Por ejemplo, Dublin Core recomienda ISO 8601 para elementos de fecha, Dublin Core Types para tipos de recursos y formatos de datos. y los números de identificación usan URL o DOI o ISBN;

Otro ejemplo es cuando OhioLink usa VRA Core, requiere elementos de tema para usar Aamp, TGM y TGN, y elementos de nombre personal para usar ULAN;

5. Lenguaje de codificación de metadatos y método de producción

5.1 Lenguaje de codificación de metadatos

El lenguaje de codificación de metadatos (lenguaje de codificación de metadatos) se refiere a los elementos de metadatos y la sintaxis específica. y las reglas semánticas para definir y describir estructuras a menudo se denominan lenguajes de descripción de definiciones (DDL).

En los primeros días del desarrollo de metadatos, la gente solía utilizar lenguajes de grabación personalizados (como MARC) o estructuras de registro de bases de datos (como ROADS, etc.). Sin embargo, con el aumento de los formatos de metadatos. Debido a los requisitos de interoperabilidad, la gente empezó a utilizar algún DDL estandarizado para describir metadatos, como SGML y XML, de los cuales XML tiene el mayor potencial.

5.2 Método de producción de metadatos

(1) Módulos especialmente compilados (como MARC, GILS, FGDC, etc.)

(2) Compilado automáticamente durante los datos procesamiento (por ejemplo, Dublin Core, etc.)

(3) Compilado automáticamente durante el procesamiento físico de datos (como ciertos parámetros de metadatos al escanear imágenes digitales)

(4) * ** Disfrute de los metadatos (por ejemplo, OCLC/CORC, IMESH

6. Interoperabilidad de metadatos

6.1 Problemas de interoperabilidad de metadatos

Debido a diferentes dominios (incluso a menudo hay múltiples formatos de metadatos en el mismo campo Cuando la recuperación, descripción de recursos y utilización de recursos se realizan entre sistemas de recursos descritos por diferentes formatos de metadatos, habrá problemas de interoperabilidad de metadatos (Interoperabilidad):

Interpretación y conversión de múltiples metadatos diferentes. formatos y recuperación transparente entre sistemas de recursos de información digital descritos por múltiples formatos de metadatos

6.2 Mapeo de formatos de metadatos

El uso de programas de conversión específicos para convertir diferentes metaformatos de metadatos se denomina mapeo de metadatos (Metadata Mapping/Crosswalking ).

Existe una gran cantidad de programas de conversión para la conversión entre varios formatos de metadatos populares, como

Dublin Core y USMARC Dublin Core y EAD

Dublin Core y; GILS; GILS y MARC TEI

Encabezado y MARC FGDC y MARC

También puede utilizar un formato intermediario para convertir múltiples formatos de metadatos bajo el mismo marco de formato. Por ejemplo, el proyecto UNIverse. utiliza el formato GRS para convertir varios formatos MARC y otros formatos de registro. La conversión de mapeo de formato es precisa y la eficiencia de conversión es alta. Sin embargo, la eficiencia de la aplicación de este método está obviamente limitada en un entorno abierto donde coexisten múltiples formatos de metadatos.

6.3 Marco de descripción estándar

Otra forma de resolver el problema de la interoperabilidad de metadatos es establecer un marco de descripción de recursos estándar y utilizar este marco para describir todos los formatos de metadatos, siempre que A. El sistema que puede analizar este marco de descripción estándar puede interpretar el formato de metadatos correspondiente. De hecho, XML y RDF desempeñan funciones similares desde diferentes perspectivas.

XML, a través de su método de definición DTD estándar, permite que todos los sistemas que pueden interpretar declaraciones XML reconozcan el formato de Metadatos definido con XML_DTD, resolviendo así el problema de interpretación de diferentes formatos.

RDF define un modelo básico que consta de tres objetos: Recursos, Propiedades y Declaraciones. La relación entre Recursos y Propiedades es similar al modelo E-R, y Declaraciones describe la relación en detalle.

RDF establece un marco para definir y utilizar metadatos a través de este modelo de datos abstracto. Los elementos de metadatos pueden considerarse como atributos de los recursos que describen.

Además, RDF define un esquema estándar, que especifica el mecanismo para declarar tipos de recursos, declarar atributos relacionados y su semántica, y métodos para definir relaciones entre atributos y otros recursos. Además, RDF también especifica un mecanismo para llamar a especificaciones de definición existentes utilizando el método XML Namespace.

6.4 Método de objeto digital

Establecer objetos digitales que contienen metadatos y su mecanismo de conversión puede resolver el problema de la interoperabilidad de metadatos desde otro ángulo.

El proyecto Cornell/FEDORA propone un objeto digital compuesto compuesto por un núcleo (Structural Kernel) y una capa de difusión funcional (Disseminator Layer).

El kernel puede acomodar el contenido del documento en forma de flujos de bits, metadatos que describen el documento y datos relacionados con el control de acceso al documento y los metadatos.

Capa de difusión de funciones, el diseminador de funciones principal (PrimitiveDisseminator) admite funciones de servicio relacionadas con la deconstrucción de tipos de datos del kernel y la lectura de datos del kernel, y también puede haber diseminadores de tipos de contenido (Diseminadores de tipo de contenido), que pueden incrustarse Mecanismo de conversión de formato de metadatos.

Por ejemplo, los metadatos en formato MARC se almacenan en el núcleo de un objeto digital, y un propagador de tipo de contenido que solicita el formato Dublin Core y sus servicios de conversión se carga en la capa de propagación funcional. Cuando un consumidor de objetos digitales solicita leer metadatos representados en Dublin Core, el propagador del tipo de contenido correspondiente solicitará el objeto digital almacenado en Dublin Core y su programa de servicio de conversión a través de la red, y luego se le solicitará el formato MARC del objeto digital. Los metadatos se convierten al formato Dublin Core y se envían al usuario.

7. Algunas sugerencias

Seguir el desarrollo de metadatos, participar activamente en la formulación de estándares de metadatos, acelerar la aplicación de metadatos y prestar atención a los estándares internacionales.

Acelerar la investigación sobre mecanismos para el uso eficaz de metadatos para la recuperación (incluida la recuperación transparente de sistemas heterogéneos), el aprendizaje por correlación, el procesamiento personalizado, etc.

Acelerar la investigación sobre formas y métodos para integrar orgánicamente metadatos con objetos digitales y sistemas de recursos digitales.

Avanzar en la investigación sobre el aprovechamiento de los metadatos para la organización de datos basada en el conocimiento y el descubrimiento de conocimiento.