Metadatos: Organización y Representación de la Información
1. Los metadatos como producto y proceso
El uso de estándares para la creación de metadatos estructurados resulta en lo que se puede caracterizar como “productos de metadatos”. Se describen cómo los productos de metadatos casi siempre implican sus correspondientes “procesos de metadatos”, es decir, prácticas que ayudan a las personas a vencer o sortear las ficciones que ocurren durante la creación y uso de metadatos. Los productos de metadatos bien codificados aumentan la precisión con la que un dataset se puede ajustar a propósitos para los que no había sido diseñado originalmente, o puede reutilizarse por personas que no participaron cuando se crearon. Al mismo tiempo, procesos de metadatos efímeros, incompletos y ad hoc actúan como lubricantes en una comunicación científica imprecisa y desarticulada. Algunos de los ejemplos que ofrece Edwards contemplan como “los procesos de metadatos” sirven con efectividad para facilitar el descubrimiento, uso y compartición de datos en situaciones en las que no hay “productos de metadatos” estandarizados, o no pueden elaborarse debido a restricciones de tiempo o a la falta de disponibilidad de expertos. Como ejemplo, la Biblioteca del Congreso de los Estados Unidos ha publicado un conjunto de “reglas de interpretación” para ser usadas por catalogadores en bibliotecas de todo el mundo que se dediquen a crear registros catalográficos usando (AACR2). Estas reglas de interpretación abarcan casos comunes, como introducir los nombres de los autores cuando hay más de un autor, y también casos más raros. Las Interpretaciones de las Reglas de la Biblioteca del Congreso (LCRI) son este tipo de metadatos de proceso que facilitan la creación de productos de metadatos más normalizados. La implementación de cualquier estándar de metadatos está unida a procesos e interpretaciones locales. Esta flexibilidad interpretativa es una característica de cualquier estándar o esquema de metadatos.
2. Recursos de información: dominio, foco, formato y agencia
DOMINIO de un recurso.
El dominio de un recurso es una noción intuitiva que agrupa los recursos según el conjunto de características naturales o intuitivas que los distinguen de otros recursos.
Para los dominios de recursos físicos, pueden distinguirse según el tipo de material.
Para los recursos informativos se distinguen los dominios en función de las propiedades semánticas.
Se pueden distinguir diferentes dominios o tipos de documentos según la medida en que su contenido esté prescrito semánticamente, por la cantidad de estructura interna, así como por las correlaciones entre su presentación/formato y su contenido/estructura.
En los recursos de información, podemos hablar de un espectro de tipos de documentos.
Un continuo fluido entre contenido narrativo y transaccional en donde se incrementa la estructuración de la información.
AGENCIA de un recurso.
La agencia es la medida en que un recurso puede iniciar acciones por sí mismo.
Podemos definir un continuo entre recursos completamente pasivos que no pueden iniciar ninguna acción y recursos activos que pueden iniciar acciones basadas en la información que perciben de su entorno o que obtienen mediante interacciones con otros recursos.
Los recursos pasivos sirven como sustantivos u operandos sobre los que se actúa. Por el contrario, los recursos activos sirven como verbos u operantes que causan y realizan acciones.
FOCO de un recurso.
Un cuarto aspecto para diferenciar entre tipos de recursos distingue los recursos originales o primarios de los recursos que los describen.
Los recursos que son descripciones son esenciales para organizar sistemas en los que los recursos primarios no están bajo su control y sólo se puede acceder a ellos o interactuar con ellos a través de la descripción.
Los recursos de descripción suelen denominarse metadatos.
Formato de un recurso.
Hay un gran número de formatos digitales, pero podemos aplicar dos dimensiones: el grado en que distinguen el contenido de la información de su presentación o representación, y el nivel de explicitación con que se representan las distinciones de contenido.
3. Diferencias entre organización cosas, información sobre cosas, cosas digitales e información sobre cosas digitales, incluyendo además las diferencias entre principios de organización y formas de almacenamiento
ORGANIZAMOS COSAS FÍSICAS. Cada uno de nosotros organiza muchos tipos de cosas a lo largo de su vida: libros en estanterías, utensilios de cocina y cubiertos en los cajones y los armarios de la cocina… Las bibliotecas públicas organizan libros impresos, periódicos… Las bibliotecas de investigación también organizan manuscritos valiosos, panfletos… Los museos organizan pinturas, esculturas y otros artefactos de valor cultural, histórico o científico. Las tiendas y los proveedores organizan sus bienes para venderlos. Las ligas deportivas organizan a los jugadores en equipos y los equipos organizan a los jugadores por posición o rol.
ORGANIZAMOS INFORMACIÓN SOBRE COSAS FÍSICAS. Cada uno de nosotros organiza información sobre cosas: cuando hacemos un inventario de nuestra casa para el seguro, cuando vendemos lo que ya no necesitamos… Los sensores y las etiquetas RFID rastrean el movimiento de los bienes (incluso de los libros de las bibliotecas) a través de cadenas de suministro, además del movimiento (o falta de él) de los coches en las autopistas.
ORGANIZAMOS COSAS DIGITALES. Cada uno de nosotros organiza su información digital (correo electrónico, documentos, libros electrónicos, archivos MP3 y de vídeo, citas y contactos) en ordenadores, smartphones, lectores de libros electrónicos o “la nube”, a través de servicios de información que utilizan los protocolos de Internet. Las grandes bibliotecas de investigación organizan revistas y libros digitales, programas de ordenador, conjuntos de datos (datasets) gubernamentales y científicos, bases de datos, y muchos otros tipos de información digital. Las empresas organizan en sistemas de almacenamiento Data Warehouse y bases de datos. Los hospitales y las clínicas médicas mantienen e intercambian registros electrónicos de salud y radiografías y escaneos digitales.
ORGANIZAMOS INFORMACIÓN SOBRE COSAS DIGITALES. Los catálogos de las bibliotecas digitales, los portales web y los sitios web de agregación organizan enlaces a otros recursos digitales. Los motores de búsqueda web utilizan el contenido y el análisis de los enlaces junto con clasificaciones de relevancia para organizar los miles de millones de páginas web y “feeds” de actualización permanente de datos, que compiten por nuestra atención.
Los principios de organización establecen las directrices generales para la gestión efectiva de recursos dentro de una organización, mientras que las formas de almacenamiento se refieren a las técnicas específicas utilizadas para almacenar esos recursos de manera física o digital. Los principios guían el
diseño y la implementación de las formas de almacenamiento para garantizar una operación eficiente y efectiva.
4. Diferencias entre modelos conceptuales y estándares de contenido, y su aplicación en diferentes dominios
Los modelos conceptuales desarrollados en el ámbito de la documentación tienen, principalmente, la función de facilitar la interoperabilidad de los datos publicados en la web, con la finalidad de lograr la integración de los contenidos entre las instituciones de información.
Los modelos conceptuales, que están en la base de la definición de estándares de descripción especializados, permiten: delimitar entidades, relaciones y procesos.
Los modelos conceptuales son la base de los modelos descriptivos para representar los objetos de información según determinados atributos y las relaciones lógicas entre ellos.
Aplicación en diferentes dominios:
- Utilizado en el diseño de bases de datos y sistemas de información, como los diagramas entidad-relación (ER).
- Base de datos relacional o un conjunto de datos publicado en la web como linked open data (LOD).
Los estándares de contenido son conjuntos de criterios o especificaciones acordadas para garantizar la calidad, consistencia y compatibilidad de la información y los datos en un dominio particular.
Aplicación en diferentes dominios:
- Protocolos y estándares como HTML, CSS y XML que aseguran la interoperabilidad y la correcta visualización de la información en la web.
Los modelos conceptuales son más abstractos y flexibles, mientras que los estándares de contenido son más específicos y detallados.
6. La catalogación en el dominio bibliográfico, evolución, situación actual y tendencias
La primera declaración de principios de catalogación conocida como Principios de París (2009), establecía qué funciones debe tener el catálogo, su estructura, los tipos de asientos que puede incluir, su elección y cometido. En España las bibliotecas usan las RC (Reglas de Catalogación) españolas, que para la catalogación descriptiva se fundamenta en ISBD. La RC está supervisada por la BNE.
Las estructuras y presentación de los encabezamientos se hacen a partir de las directrices, tanto de referencia como descriptivos. GARR
En la actualidad sociedad, los usuarios buscan información primero en Google u otro buscador web. En la búsqueda web se puede consultar de una manera rápida y fácil, obteniéndose de forma integrada diversidad de información heterogénea relativa al criterio de búsqueda documental. Los catálogos han encontrado dificultades.
El conjunto de formato MARC para registros bibliográficos + reglas de catalogación de ISBD y AACR2, fueron concebidas muchos años antes del advenimiento de la web, y por tanto ajenas a los aspectos esenciales de los datos enlazados haciendo que los millones de registros en los catálogos estén aislados de internet.
LRM (Library Reference Model), de la IFLA, es un modelo de referencia conceptual de alto nivel para los datos bibliográficos.
Pretende servir como guía para la elaboración de reglas de catalogación y la implementación de sistemas de información bibliográficos.
ICP 2016: principios pensados para orientar el desarrollo de los códigos de catalogación. Se aplican a los datos bibliográficos y de autoridad y, en consecuencia, a los actuales catálogos de bibliotecas.
Las RC españolas no están adaptadas a FRBR. Usan de marco referencia ISBD, internacionales. Se codifica en Marc 21.
Agrupa en 8 zonas o áreas los elementos descriptivos:
• Área 1: Título y mención de responsabilidad. Área 2: Edición.
• Área 3: Datos específicos del material o del tipo de publicación.
• Área 4: Publicación, distribución, etc.
• Área 5: Descripción física.
• Área 6: Colección.
• Área 7: Notas.
• Área 8: Número normalizado
En cada zona o área existe una puntuación preescrita para separar los diferentes elementos informativos que allí se indican.
7. Explicación de los principales metamodelos para representar descripciones de recursos
Para formalizar descripciones de recursos, podemos encontrar las siguientes estructuras genéricas o abstractas, usadas de forma general en diferentes dominios (Metamodelos).
Las tres implementaciones más habituales son: JSON, XML y RDF.
- JSON: JavaScript Object Notation (JSON) es un formato textual para el intercambio de datos que procede del lenguaje de programación JS. Consiste en dos clases de estructuras: list (arrays en JS) y dictionaries (objects en JS).
Las “Lists” y los “dictionaries” contienen valores, que pueden ser cadenas de texto (strings), números (numbers), Booleans (true or false), o valor nulo “null” (empty). Estos son los Datatypes.
- XML: (XML Infoset), deriva de las estructuras de marcado de documentos (elements y attributes) que están diseñadas para el procesamiento eficaz de contenido y estructura en los documentos.
Es una estructura en árbol, en el que cada nodo se define con un informe item de un tipo particular.
El elemento root es el un “document item”, al que le corresponde un único “elemento item” como hijo, que es el que a su vez tiene atributos y una lista de nodos hijo. El contenido puede ser textual o contenido tipado (typed data) Para conectar nodos pueden usarse identificadores y referencias (ID/IDREF) de forma que se pueda transformar en un grafo.
- Contenido en XML es mixto. Estructura jerárquica.
- Se puede usar en combinación con XML Schema, codificar las restricciones que se aplica a un documento XML.
- Semántica compartida genérica, independiente a la aplicación a diferencia de JSON.
- JSON, es más ágil, menos expresivo y formalizado por el mercado.
- RDF: grafo es conectar nodos a través de propiedades: los valores son nodos y las propiedades, relaciones. Este enfoque corresponde con el RDF. (Resource Description Framework). En RDF, el par de nodos conectados a través de una propiedad se denomina tripleta. La tripleta es una unidad declarativa: una declaración independiente (statement) con un sujeto, un objeto y un predicado. Para que funciones necesitaremos identificadores para los nodos conectados.
8. El proceso de extracción de propiedades de recursos informativos y diferentes tipos de propiedades
7 pasos proceso descripción recursos. Son interdependientes e iterativos.
- Identificar a los recursos.
- Propósito (Actividades e interacciones).
- Identificar propiedades relevantes.
- Lógica, reglas y vocabulario de descripción.
- Sintaxis y codificación
- Creación de las descripciones.
- Evaluación del funcionamiento en el sistema.
PASO 3. IDENTIFICACIÓN PROPIEDADES. Una vez que se ha determinado los propósitos de la descripción, se puede identificar qué propiedades específicas de los recursos se necesitan. El objetivo de la descripción en utilizar las propiedades más sólidas y fiables para apoyar las interacciones deseadas.
PASO 3-4 DIFICULTADES CON PROPIEDADES.
- Un recurso cualquiera puede necesitar muchas descripciones, todas ellas relacionadas con propiedades diferentes.
- Diferentes tipos de recursos necesitan incorporar diferentes propiedades en sus descripciones.
- Las propiedades que participan en la descripción de recursos dependen de quién la realiza.
- Desde el punto de vista conceptual, puede parecernos que dos propiedades son idénticas, pero es posible que estas difieran totalmente al implementarlas.
Propiedades estáticas.
Propiedades intrínsecas estáticas:
- Son inherentes a los recursos y a menudo pueden percibirse de forma directa.
- Los valores no cambian con el tiempo, son invariables.
- A veces dicen poco de su sentido y valor.
- Las descripciones intrínsecas suelen extraerse o calcularse mediante procesos computacionales.
- Las relaciones entre recursos se intentan no tratar como propiedades
Propiedades extrínsecas estáticas:
Se asignan a un recurso en lugar de ser inherentes a él. El nombre es a menudo arbitrario, pero una vez que se asigna no se cambia. Números de clasificación y los EM o temas asignados a recursos bibliográficos son propiedades estáticas extrínsecas. Propiedades de presentación de los recursos digitales son variables (renderización) y no son fijas como el material impreso.
Propiedades dinámicas.
Propiedades intrínsecas dinámicas:
Cambian con el tiempo. Un ejemplo de estas son las características que cambian con el desarrollo del individuo como la altura. Suelen emplearse solo para organizar recursos que permanecerán durante un tiempo limitado.
Propiedades extrínsecas dinámicas:
Útiles para los científicos, son datos que realizan modelos de predicción o clasificación. Su ubicación actual, comprado hace segundos… Son arbitrarias en muchos aspectos y pueden cambiar porque se basan en el uso, el comportamiento o el contexto. El propietario de un recurso, su frecuencia de acceso, la frecuencia de conexión… son algunas de las propiedades extrínsecas y dinámicas que más se utilizan en las descripciones de recursos.
9. Metadatos embebidos, conectados y marcados. Diferentes formas de vincular metainformación y contenidos en plataformas
10. Metadatos estructurados y no estructurados
Los metadatos estructurados son aquellos que están organizados en un formato predefinido y que siguen un esquema o modelo de datos específico. Se almacenan de manera que puedan ser fácilmente procesados por sistemas informáticos.
Ejemplos de metadatos estructurados:
- Bases de datos relacionales: Datos almacenados en tablas con filas y columnas claramente definidas.
- XML: Datos organizados en un formato jerárquico con etiquetas que definen la estructura.
- JSON: Datos estructurados en un formato de pares clave-valor, comúnmente utilizado en APIs web.
Los metadatos no estructurados no siguen un formato o esquema predefinido. Su estructura puede ser inconsistente o inexistente, lo que los hace más flexibles pero también más difíciles de procesar automáticamente.
Ejemplos de metadatos no estructurados:
- Comentarios y notas: Texto libre en campos de comentarios o notas en bases de datos.
- Documentos de texto: Archivos de texto sin una estructura clara, como correos electrónicos o informes.
- Etiquetas no estructuradas: Palabras clave o etiquetas agregadas de forma ad hoc a un recurso sin seguir un esquema específico.
11. Reflexiones sobre la participación de los metadatos en entornos de descubrimiento y acceso a la información
Los metadatos se pueden usar para proveer estructuras que den soporte a búsquedas consistentes y al descubrimiento de información entre una amplia variedad de documentos.
Los metadatos también pueden, potencialmente, permitir distinguir entre documentos o recursos similares. Una búsqueda en un catálogo de biblioteca por “Hamlet” o una búsqueda en un base de datos científica por “datos climáticos” puede devolver cientos o miles de resultados relevantes.
Hay metadatos que, siendo útiles para la búsqueda y el descubrimiento, no lo son tanto para apreciar las diferencias dentro de un gran número de resultados.
Los usuarios necesitarán metadatos suplementarios que les permitan entender los recursos y no solo descubrirlos. Aportar metadatos para la comprensión es, sin duda, uno de los roles de la descripción.
Por ejemplo, una bibliografía anotada de las diferentes ediciones de Hamlet (Bevington, 2019) y una guía comparativa de datos climáticos (Schneider et al., 2013) existen específicamente para ir más allá de la búsqueda y el descubrimiento y permitir la comprensión.
Los metadatos no son la única vía para pasar de la búsqueda y descubrimiento a la comprensión. El diseño de interfaz y la mejora de las capacidades de los buscadores tienen también impacto. Pero los metadatos tendrán un papel central en este objetivo, cuando se usan y amplían los sistemas con nuevas clases de metadatos y estructuras.
Los metadatos pueden revelar información que no está explícitamente presente en el contenido de los recursos, como el historial de versiones, la proveniencia, los derechos de autor, la licencia de uso, etc. Esta información adicional puede ser crucial para comprender la confiabilidad, la autenticidad y la relevancia de los recursos.