1 La Web Semántica y los Repositorios Institucionales [email protected] Organización para la Agricultura y la Alimentación de las Naciones Unidas [email protected] SPINCAM – OceanTeacher Training course Development and Management of e-Repositories 26-31 May 2014 Guayaquil, Ecuador
2 Resultados Al final de esta sesión, será capaz de: Comprender los conceptos básicos relacionados con la Web Semántica y cómo su efecto está influyendo en la interoperabilidad de los repositorios institucionales
3 Sumario La Web Semántica Datos Enlazados y Datos Abiertos Enlazados ¿Cómo funciona ? ¿Quién lo esta haciendo ? ¿Cómo acceder a los Datos Abiertos Vinculados? ¿Por qué es importante? ¿Cuáles son las desventajas? ¿Cuáles son las implicaciones para los repositorios institucionales? Recomendaciones El caso de la Agricultura
4 La Web Semántica
5 ¿Que es la Web Semántica? La Web Semántica es una extensión de la World Wide Web que permite a las personas compartir contenido más allá de los límites de las aplicaciones y sitios web. Proporciona una forma estandarizada de expresar las relaciones entre las páginas web, para permitir a las máquinas entender el significado de la información con hipervínculos. Se ha descrito en muy diferentes formas: como una visión utópica, como una red de datos, o simplemente como un cambio de paradigma natural en el uso diario de la Web. Fuente de información: http://semanticweb.org/wiki/Main_Page
6 Retos y oportunidades En un mundo ideal todos los datos estarían relacionados en el Web Esto permitiría establecer sistemas de información combinando diferentes repositorios de datos distribuidos Existen metodologías, estándares y tecnología para lograrlo Sin embargo, la mayoría de los datos se encuentran en silos (bases de datos y repositorios) Falta de acceso a datos distribuidos funcionalidades, robustez o sostenibilidad
7 Obstáculos Inercia institucional Voluntad para invertir en datos que se puedan compartir Enfoque pragmático para lograr la total interoperabilidad Necesario un claro compromiso con el acceso abierto a datos y publicaciones por parte de los proveedores de datos Administradores, investigadores y directivos deben entender que el intercambio de información mejorará nuestra capacidad de crear conocimiento
8 La Comunidad Científica Debe garantizar el fácil acceso al conocimiento Para maximizar el consumo de su investigación por parte de otros investigadores El volumen de los resultados de la investigación, tales como las publicaciones académicas o datos está aumentando rápidamente Paradoxalmente compartir de manera eficiente dentro de las comunidades científicas se ha vuelto más difícil
9 Los Datos Elementos registrados digitalmente comúnmente aceptados por la comunidad científica como necesarios para validar los resultados de la investigación En los próximos cinco años se generarán más datos científicos que en toda la historia de la humanidad
10 ¿Cómo influye al mundo de la gestión de la información? Mayor Interoperabilidad Mayor Agregación Mayor Accesibilidad Maximizar el intercambio de datos e información
11 Interoperabilidad Son datos distribuidos, utilizados e intercambiados por instituciones sin la necesidad de centralizar los datos o estandarizar el software El papel de la interoperabilidad es fundamental como motor para el intercambio de información Es la alternativa a la centralización de los datos o la unificación de los entornos de trabajo, usando un conjunto de normas, protocolos y herramientas que hacen que sea posible la interoperabilidad y el intercambio de datos distribuidos
12 W3C Propuesta del W3C. Objetivo interoperabilidad global de los datos en la WWW W3C ha desarrollado una serie de normas para lograr este objetivo Especialmente lenguajes de descripción semántica (RDF, OWL) La interoperabilidad se consigue cuando las máquinas entienden el significado de los datos distribuidos y son capaces de procesarlos de manera correcta
13 La Web Semántica El enfoque tradicional de compartir datos en silos parece haber llegado a su fin con la Web avanzando hacia una era de apertura de los datos. Desde gobiernos y organizaciones internacionales a ciudades y instituciones locales, hay un esfuerzo generalizado de apertura y interconexión de datos. Dos conceptos importantes se han acuñado en este contexto: Datos Abiertos Datos Abiertos Enlazados
14 Datos Abiertos y Datos Enlazados (1) Datos Abiertos, definido como "datos que se puede utilizar libremente, reutilizar y redistribuir por cualquier persona – sujeto solo, a lo sumo, a la obligación de atribuir y compartir por igual“ Datos Vinculados, asociado a la interoperabilidad técnica de datos, que permite conectar los datos de una variedad de fuentes (relacionada con la arquitectura de Web Semántica).
15 Datos Abiertos y Datos Enlazados (2) Mientras el concepto Datos Abiertos se refiere a los datos de libre acceso, sin restricciones, los Datos Enlazados son datos de lectura mecánica y semánticamente relacionados. Por lo tanto, los datos pueden ser abiertos, pero no vinculados, o enlazados pero no abiertos, sin embargo, si los datos son abiertos y enlazados entonces se convierten en Datos Abiertos Enlazados.
16 Datos Enlazados y Datos Abiertos Enlazados
17 Datos Enlazados Se refiere a un conjunto de buenas prácticas para la publicación, el intercambio y la interconexión de datos estructurados en la Web. Su principal objetivo es liberar los datos de los silos que se enmarcan en esquemas de bases propietarias siguiendo cuatro reglas definidas por Tim Berners-Lee en 2006
18 Cuatro reglas Utilizar URI (identificadores de recursos uniformes) para identificar los recursos de forma única; Utilizar URI HTTP para que las personas puedan acceder a la información sobre el recurso; Proporcionar información sobre los recursos utilizando formatos estándar como RDF / XML; y Incluir enlaces a otros recursos, URI, mejorando la vinculación entre los diferentes recursos distribuidos en la web.
19 Datos Abiertos Enlazados Datos distribuidos bajo una licencia abierta que permite su reutilización de forma gratuita. En 2010, Tim Berners-Lee definió un esquema Valoración 5 estrellas para alentar a los proveedores de datos para proporcionar datos relacionados con licencias abiertas. El esquema utiliza estrellas de oro para evaluar la disponibilidad de datos vinculados como datos abiertos vinculados:
20 Una estrella: ofrecer los datos en cualquier formato, aunque sean difíciles de manipular, como un pdf o una imagen escaneada. Dos estrellas: entregar los datos de manera estructurada, como en un archivo excel con extension xls. Tres estrellas: entregar los datos en un formato que no sea propietario, como csv en vez de excel. Cuatro estrellas: usar URIs (que es una dirección web de un dato que sirve para enlazarlo con otros datos) para identificar cosas y propiedades, de manera que se pueda apuntar a los datos. Requiere usar un estándar RDF Cinco estrellas: vincular sus datos con los de otras personas, dotándolos de contexto. En la práctica, a que la información entregada también apunte a otras fuentes de datos. Por ejemplo, si publico información sobre un libro dentro de mis datos, enlazar descripciones del libro que pertenezcan a otros publicadores (por ejemplo DBPedia o Amazon). Las Cinco Estrellas de los Datos Abiertos Enlazados
21 ¿Cómo funciona?
22 Estándares Con el fin de enlazar datos distribuidos a través de la Web, se necesita un mecanismo para especificar el significado de las conexiones entre los elementos descritos en los datos. Este mecanismo estándar es RDF, el Marco de Descripción de Recursos para los metadatos en la Web desarrollado por el W3C.
23 Instrumento fundamental para publicar datos en el web RDF es el formato de datos para los datos enlazados Describe relaciones entre elementos RDF usa URIs para nombrar elementos, preferentemente HTTP http://www.w3.org/RDF/
24 RDF (1) Se basa en la idea de declarar recursos utilizando la expresión en la forma sujeto-predicado-objeto. Esta expresión se conoce como triplete de RDF. Un triplete de RDF contiene tres componentes, todos con su propio URI: Asunto, un URI, una persona, o nodo, es la entidad a la que nos referimos; Predicado es la propiedad o relación que desea establecer sobre el tema; El objeto es el valor de la propiedad o de otro recurso que establece la relación
25 Sujeto Objeto Predicado TALIS, 2009
26 Relaciones Literales Recursos
27 27 http://semanticpublishing.wordpress.com/2013/03/01/ll d3-bibliographic-records-in-rdf/
28 28 http://semanticpublishing.wordpress.com/2013/03/01/ll d3-bibliographic-records-in-rdf/
29 RDF (2) Facilita el intercambio de información estructurada independientemente de la estructura específica en la que se expresa en la fuente. Cualquier base de datos se puede fácilmente expresar utilizando RDF, también información de texto estructurado a partir de sistemas de gestión de contenido La presentación de los datos en RDF hace comprensible procesable por máquinas, que son capaces de mezclar datos de diferentes sitios.
30 RDF (3) Mediante el uso de los URI para vincular datos, la web se convierte en una especie de gran base de datos que permite a las personas y las máquinas para explorar la información de referencia e interconectarse. El Web-basado en Linked Data es un gran avance en la sindicación de contenidos, que utiliza fuentes externas de datos para crear nuevos servicios
31 El uso de Vocabularios en el contexto de LOD Simplemente conversión de esquemas de bases de datos en RDF no crea Datos Abiertos Vinculados. Existe la posibilidad de quedar atrapado en la cuarta estrella en el esquema de calificación de 5 estrellas. Para evitar la creación de silos RDF, es necesario crear vínculos automáticos entre RDF tiendas de triples en la web. a forma más sencilla para facilitar el establecimiento de enlace automático entre los conjuntos de datos es el uso de un vocabulario estándar, incluyendo vocabularios estándar para describir los datos o elementos de metadatos y vocabularios estándar para indicar valores.
32 ¿Quién lo está haciendo?
33 RDA En el contexto de Datos Abiertos, patrocinadores de la Comisión Europea, el Gobierno de los EE.UU., y el Gobierno de Australia entre otros formaron en marzo de 2013 la Alianza de Datos de Investigación ( RDA) en Gotemburgo (Suecia) en marzo de 2013. Esta iniciativa tiene como objetivo facilitar el intercambio mundial de datos de la investigación y el intercambio por la armonización de las normas y de los datos. RDA se organiza en grupos de trabajo y de interés y de las sesiones plenarias se celebran trimestralmente ; la participación de los gobiernos, los investigadores y los profesionales, sin embargo las actividades están abiertas a todas las personas interesadas.
34 https://rd-alliance.org/
35 Open Knowledge Foundation ( OKF ) Es una organización sin fines de lucro dedicada a la promoción de los datos abiertos con una amplia experiencia en herramientas y la construcción de comunidades. El CKAN, de código abierto plataforma de portal de datos y Data Hub, un catálogo de gestión comunitaria de los conjuntos de datos disponibles en la Web son parte de los proyectos que están siendo gestionados y promovidos por el personal y las comunidades de la OKF.
36 http://ckan.org/
37 Instituto Open Data (ODI ) En diciembre de 2012, ODI fue creado en el Reino Unido con el objetivo de promover nuevos negocios y la cultura alrededor de los datos abiertos mediante la creación de valor económico, ambiental y social, y la promoción de las normas. El Instituto fue fundado por Tim Berners -Lee y Nigel Shadbolt con financiación del Gobierno del Reino Unido y Omidyar Network. ODI ha lanzado recientemente los certificados de Datos Abiertos para ayudar a encontrar, comprender y utilizar los datos publicados abiertos. El objetivo es crear mecanismos para lograr la precisión a la publicación, difusión y uso de datos abiertos de acuerdo a las necesidades de las empresas, los gobiernos y los ciudadanos.
38 https://certificates.theodi.org/
39 Open Data Global para la Agricultura y la Alimentación ( GODAN ) y CIARD En la Open Government Partnership Summit en Londres en octubre de 2013, GODAN se puso en marcha para apoyar los esfuerzos globales para hacer que los datos relevantes agrícolas y nutricionalmente disponible, accesible y utilizable para su uso sin restricciones en todo el mundo. En el mismo contexto, y desde el año 2008, el Movimiento de CIARD trabaja para ampliar la apertura mediante el fomento de métodos de colaboración y aprendizaje mutuo hacia el conocimiento agrícola abierto para el desarrollo.
40 http://www.ciard.net/
41 ¿Cómo acceder a los Datos Abiertos Vinculados?
42 Datahub Datahub.io es la plataforma de gestión de datos que nos brinda OKF para publicar, registrarse o compartir conjuntos de datos. La interfaz web es una manera de ayudar a la gente a encontrar y buscar conjuntos de datos publicados.
43 http://datahub.io/
44 Linking Open Data Cloud Diagram El Linking Open Data Cloud Diagram muestra los conjuntos de datos que se han publicado en formato de datos enlazados por colaboradores del proyecto Linking Open Data y otras personas y organizaciones. Con el fin de estar presente en el gráfico, las fuentes de datos deben publicar los datos de la siguiente manera: http:// resoluble (o https://) URI resoluble a datos RDF en cualquier formato estándar RDF. por ejemplo RDFa, RDF / XML, Turtle, N-Triples que contiene por lo menos 1.000 triples la conexión a través de RDF con enlaces a al menos un conjunto de datos que ya están en el diagrama (se requiere al menos 50 enlaces)
45 La Web de los Datos
46
47
48
49
50 ¿Por qué es importante?
51 Si todos los datos en la Web fueran abiertos y enlazados, sería más fácil establecer sistemas de información que combinasen diferentes repositorios de datos distribuidos. Por lo tanto, la Web de Datos permitiría el acceso y el intercambio de datos y conocimiento sin barreras.
52 ¿Cuáles son las desventajas?
53 Actualización de los datos La cantidad de Datos Enlazados publicados aumenta día a día. Sin embargo: algunos de los datos disponibles son actualizados de forma irregular ya están disponible en otros formatos y API
54 Accesibilidad a los datos Más datos tienen que estar disponibles para compartir, extensión y reutilización. Los datos tienen que ser publicados con urgencia como Datos Vinculados en la web con licencias apropiadas e información de procedencia Sin datos para vincularse existe el riesgo de crear silos RDF.
55 Herramientas Más aplicaciones y herramientas de explotación de datos vinculados son necesarias El desarrollo de aplicaciones basadas en Datos Enlazados es un reto, debido: a las dificultades para integrar los datos en diferentes formatos y procedentes de múltiples fuentes, el descubrimiento de los datos la usabilidad de las interfaces de usuario.
56 ¿A dónde se dirige?
57 Existe desde 2001… … como marco común que permite que los datos sean compartidos y reutilizados a través de la aplicaciones Sin embargo, su aplicación práctica no ha sido posible hasta que gobiernos y instituciones comenzaron a promover la publicación de los Datos Abiertos en todo el mundo. Instituciones continuarán avanzando en el camino hacia la liberación de datos gubernamentales y de investigación, con el objetivo de apoyar los esfuerzos globales para hacer que los datos disponibles, accesibles y utilizables para su uso sin restricciones en todo el mundo.
58 ¿Cuáles son las implicaciones para los repositorios institucionales?
59 LOD y Repositorios Institucionales En el contexto de los Datos Abiertos Enlazados, los repositorios institucionales tienen la oportunidad de mejorar su capacidad para compartir, extender y reusar de sus datos, garantizando: contenido de datos estable, accesible por máquinas y seres humanos uso de estándares de metadatos y vocabularios bien establecidos uso de vocabularios controlados, datos de autoridad y normas de codificación de sintaxis Utilizar URIs de recursos como valores de los datos cuando están disponibles
60 Obstáculos Publicar documentos de acceso libre en la web no es suficiente para ser parte de la Web de los Datos. Variedad de etapas de desarrollo, estructuras de datos internas, y la realidad de sus prácticas pueden poner en peligro la difusión y la accesibilidad de los documentos en acceso abierto. Las metodologías existentes, estándares y tecnologías disponibles para facilitar la publicación y el intercambio de datos deben ser mucho más accesibles para los especialistas en gestión de información.
61 Beneficios (1) Desarrollar servicios locales y más amplios sobre recursos de acceso abierto agregando recursos de información adicionales. Recursos bibliográficos, estadísticas o información geo- espacial se pueden mostrar desde una única interfaz. Enriquecer los datos mediante el uso de otras fuentes de Datos Abiertos, especialmente, vocabularios controlados, especialmente los datos de autoridad y las normas de codificación de sintaxis. Los programas para repositorios institucionales tradicionales deben facilitar la integración de los vocabularios publicados como Datos Abiertos Vinculados.
62 Beneficios (2) Incremento de la exposición de la colección de repositorio institucional a motores de búsqueda web. Colecciones de más fácil acceso y al mismo tiempo que se realicen nuevas aplicaciones más útiles. Reducción de la redundancia de las descripciones bibliográficas en la web.
63 Recomendaciones “Mobilizar los datos fuera de los silos”
64 Enlazar los datos Los datos necesitan de metadatos interoperables y vocabularios El proceso debe ser tan automatizado como sea posible para su integración en otras herramientas
65 Tecnología Deben facilitar el enlace y exposición de datos en RDF No todas las instituciones tienen los mismos requerimientos y posibilidades institucional / nacional / regional / global
66 Visibilidad y accesibilidad Registro en plataformas de intercambio global
67 El caso de la Agricultura
68 "... La principal tarea de la FAO es trabajar para asegurar que el conocimiento del mundo de la alimentación y la agricultura está disponible para aquellos que lo necesitan cuando la necesitan y en una forma que se puede acceder y utilizar... "
69 5 Elementos Clave Vocabularios comunes Aplicaciones Web Herramientas Registros Capacitación
70 Enlazar contenido mediante el uso de vocabularios controlados ampliamente utilizados El uso de vocabularios controlados
71 El uso de metadatos para la descripción del contenido bibliográfico y el uso de vocabularios usados mundialmente son los principales pasos para facilitar la interoperabilidad. Es necesario el uso de recomendaciones para facilitar este intercambio de datos y el intercambio de información mediante el fomento de la utilización de los datos de autoridad, vocabularios controlados, y las normas de codificación de sintaxis.
72 ¿Qué es un vocabulario controlado? Lista de términos (por ejemplo, palabras, frases) que se utiliza para etiquetar la información de manera coherente Hay diferentes tipos de vocabularios como archivos de autoridad, sistemas de clasificación, listas de control, ontologías, taxonomías, glosarios, encabezamientos de materia, etc. El objetivo es facilitar la recuperación de contenidos
73 Usos: la indexación Los vocabularios de materias (palabras o frases tomadas de las estructuras de conocimiento, organizados estandarizados) deben emplearse para resolver problemas de indexación tales como plurales, variantes ortográficas, sinonimia, homonimia (palabras con la misma ortografía pero diferente significado), y polisemia (palabras con significados múltiples) para asegurar que cada concepto describe el uso de un solo término autorizado y cada término autorizado en un vocabulario controlado describe sólo un concepto.
74 Usos: mejorar el acceso El uso de vocabularios de materias garantiza metadatos significativos al tiempo que mejora la calidad de la interoperabilidad y la eficacia del intercambio de información entre los proveedores de datos, lo que facilita la reutilización de los datos por otros repositorios/servicios.
75 AGROVOC Un vocabulario controlado en el campo agrícola
76 AGROVOC Vocabulario controlado que cubre todas las áreas de interés para la FAO, incluidos los alimentos, la nutrición, la agricultura, la pesca, la silvicultura, el medio ambiente, etc Contiene más de 32.000 conceptos organizados en una jerarquía, cada concepto puede tener etiquetas en hasta 22 idiomas http://aims.fao.org/agrovoc/
77 Usos Estandariza el proceso de indexación con el fin de hacer la búsqueda más sencilla y eficiente y para guiar al usuario hacia las fuentes más relevantes Se utiliza en todo el mundo (investigadores, especialistas en gestión de la información) para la indexación, recuperación y organización de los datos en los sistemas de información agrícola
78 Esquema conceptual Desarrollado en los años 80, como un diccionario de sinónimos para apoyar la indexación uniforme de la base de datos bibliográfica AGRIS, y después de todo el catálogo bibliográfico de la FAO. Tesauro expresado como un esquema de conceptos mediante SKOS La conversión de una base de datos relacional ha proporcionado un valor añadido a la semántica de relaciones de términos
79 Conceptos Representan el significado de los términos Conjunto de todos los términos que se consideran traducción de otros en varios idiomas Los conceptos se dan URI (= URL), como http://aims.fao.org/aos/agrovoc/c_12332 para el maíz.
80 Términos O etiquetas, son los propios términos utilizados para nombrar las cosas o conceptos abstractos Por ejemplo el maíz, el maïs, 玉米, ข้าวโพด, son todas las etiquetas para el mismo concepto en Inglés, Francés, Hindi, respectivamente.
81 Relaciones, entre los conceptos o términos Conceptos: relaciones jerárquicas entre los conceptos que corresponden a las relaciones del tesauro clásicos (BT / NT) Términos: gama de formas que se pueden presentar para cada término, como las variantes ortográficas, singular o plural, por ejemplo, vaca o vacas
82 82
83 Mantenimiento Colaboración internacional AGROVOC es actualizado hasta la fecha por el equipo de AGROVOC de la FAO, y por un número de instituciones involucradas que sirven como puntos focales para cada una de las lenguas, así como por expertos en dominios individuales
84 AGROVOC y Linked Open Data Hacia la Web Semántica
85 La Web Semántica La principal diferencia entre la web de hipertexto y la Web Semántica es que mientras el primero enlaza páginas html o documentos, la segunda va más allá el concepto documento y enlaza datos estructurados En este contexto, Linked Data es el conjunto de mejores prácticas para la publicación y la conexión de datos estructurados en la Web Su principal objetivo es liberar los datos de los silos que se enmarcan en esquemas de bases de datos propietarias
86 ¿Qué es Linked Open Data? Datos Abiertos Vinculados (LOD) son Datos Enlazados distribuidos bajo una licencia abierta que permite su reutilización de forma gratuita. En 2010, Tim Berners-Lee definió un esquema de calificación de 5 estrellas para alentar a los proveedores de datos para proporcionar datos relacionados con licencias abiertas. El esquema utiliza estrellas de oro para evaluar la disponibilidad de datos vinculados como datos abiertos enlazados.
87 ¿ Cómo facilitar la vinculación entre los recursos? La forma más fácil es el uso de un vocabulario estándar, incluyendo vocabularios estándar para la descripción de los elementos de datos / metadatos y vocabularios estándar para indicar valores.
88 AGROVOC 88
89 AGROVOC como Datos Abiertos Vinculados El valor adicional que el vincular AGROVOC a otros vocabularios ofrece es que los repositorios de datos adjuntos a estos vocabularios se convierten en detectables Este es un caso clásico muy simple de cómo exponer el contenido de un repositorio de forma automática a través de conjuntos de datos a través de la indexación AGROVOC.
90 Datos Enlazados y AGROVOC Se encuentra disponible como un conjunto de datos vinculados con varios vocabularios
91
92
93 AGROVOC LOD-enlaces
94 AGROVOC LOD- enlances
95 Selección de estrategias de codificación adecuados para la producción de metadatos Metadatos Bibliográficos Significativos (M2B) y Estrategias de codificación apropiadas para producir Datos Abiertos Vinculados para Datos Bibliográficos (LODE-BD)
96 Recomendaciones son esenciales para conocer que normas usar y la forma de preparar los metadatos para ser expuestos para los proveedores de servicios. Un gran número de estándares de metadatos se han desarrollado en las últimas dos décadas por diferentes comunidades para fines específicos para guiar el diseño, la creación y ejecución de estructuras de datos, los valores de datos, contenido de datos y el intercambio de datos. Esto hace un poco difícil la decisión sobre cuáles son las normas para su uso.
97 Selección de propiedades de metadatos M2B
98 Recomendaciones M2B tiene como objetivo ayudar a los proveedores de contenidos en la selección de propiedades de metadatos adecuados para la creación, la gestión y el intercambio de información bibliográfica significativa en repositorios abiertos. Sus objetivos son: Proporcionar un conjunto de propiedades de metadatos comunes; Fomentar el uso de los datos de autoridad, vocabularios controlados, y las normas de codificación de sintaxis; Recomendar el uso de URIs como nombres para las cosas, sobre todo para los valores de datos, cuando se encuentren disponibles.
99 Modelo conceptual Proporciona un alto nivel de abstracción centrada en entidad recurso bibliográfico. Las principales relaciones se pueden identificar entre: una instancia de recurso (por ejemplo, un artículo o un informe) el agente (s) (por ejemplo, un autor personal o un equipo de investigación) que son responsables de la creación de los contenidos y la difusión de los recursos., el tema (s) (es decir, las cosas que el ser los temas o temas de un artículo
100
101 LODE-BD Groups 1. Información del título 2. Entidad responsable 3. Características físicas 4. Ubicación 5. Materia 6. Descripción del contenido 7. Propiedad intelectual 8. uso 9. Relación entre documentos / agentes 9 Grupos de Propiedades
102
103 Convertir datos locales en un conjunto de Datos Vinculados LODE-BD
104 Principios LODE-BD Promover el uso de estándares de metadatos bien establecidos y los emergentes vocabularios LOD propuestos en la comunidad de Linked Data; Fomentar el uso de los datos de autoridad, vocabularios controlados, y normas de codificación de sintaxis en metadatos siempre que sea posible; Fomentar el uso de recursos URI como valores de datos cuando estén disponibles; Facilitar el proceso de toma de decisiones sobre la codificación de datos con fines de intercambio y reutilización; Proporcionar un soporte de referencia que está abierto a sugerencias sobre nuevas propiedades y términos de metadatos de acuerdo a las necesidades de la comunidad Linked Data.
105 Escenario Ejemplo: metadatos relacionados procedentes de 8 proveedores de datos Todo el mundo utilizaba un formato ad-hoc local. Todo el mundo utilizaba un formato ad-hoc local.
106 Preguntas de los proveedores de datos 1.¿Qué tipos de entidades y relaciones están involucrados en la descripción y el acceso a los recursos bibliográficos? 2.¿Qué propiedades deben ser consideradas para la publicación de datos significativos/útiles como datos abiertos enlazados bibliográficos? 3.¿Qué términos de metadatos son apropiados en cualquier propiedad dada al producir datos datos abiertos enlazados bibliográficos desde una base de datos local?
107 1. Conocer el modelo de datos usando M2B Recurso Agente Tema
108 Relacionar los metadatos con las propiedades y grupos M2B Once Once or many 0 or once 0 or many
109 2. Estándares de metadatos y propiedades @prefix dc: (Dublin Core Metadata Element Set namespace) http://purl.org/dc/elements/1.1/ @prefix dcterms: (DCMI terms namespace)http://purl.org/dc/terms/ @prefix bibo: (Bibliographic Ontology namespace )http://purl.org/ontology/bibo/ @prefix agls: (AGLS Metadata Standard namespace)http://www.agls.gov.au/agls/terms/ @prefix eprint: (Eprints namespace)http://purl.org/eprint/terms/ @prefix marcrel (MARC List for Relators namespace)http://id.loc.gov/vocabulary/relators/
110
111 3. Árboles de decisión: Recomendaciones para propiedades individuales Para ayudar en la selección de términos de metadatos, LODE- BD ofrece árboles de decisión para las propiedades incluidas en cada uno de los nueve bloques. A partir de la propiedad que describe una instancia del recurso, cada diagrama de flujo presenta los puntos de decisión y da una solución paso a paso para un problema dado de codificación de metadatos. Los tipos de valores asociados a un término pueden ser de dos tipos literales (típicamente un fuerte de caracteres; indicado por “cadena" en los diagramas de flujo) no literales (un valor que es una entidad física, digital o conceptual; indicado mediante " URI " en los diagramas de flujo )
112 Información de TÍTULO
113 Ejemplos de codificación
114 Sigue el camino para encontrar un camino directo a LOD
115 Información de MATERIA
116 Una lista de todos los términos de metadatos utilizados en LODE-BD Equivalencia con los términos de Schema.org http://aims.fao.org/lode/bd-2/schema-org-crosswalk
117 Varios diccionarios de datos y ejemplos de registros 9 Grupos de Propiedades 18 Árboles de Decisión y Escenarios
118 Implementar el enfoque LODE-BD en un sistema Alternativa # 1, la estrategia de "tiempo de diseño": cambiar el modelo ad-hoc actual para utilizar las "buenas prácticas" del modelo LODE. => Esto significa realizar algunos cambios en su base de datos y los servicios que tienen acceso a ella. Alternativa # 2, la estrategia de "tiempo de ejecución": adaptar sobre la marcha el modelo de "buenas prácticas“ bajo petición y dejar su modelo ad-hoc como es. => Esto significa añadir un servicio de conversión.
119 Generar datos buscar y navegar Datos Repositorio de Metadatos registros grafos RDF LOD
120 La integración de los estándares de metadatos, vocabularios controlados, los datos de autoridad y las normas de codificación de sintaxis en el software para repositorios institucionales AgriDrupal y AgriOcean DSpace
121 La promoción de las normas de gestión de la información ha demostrado que facilitar herramientas que implementan buenas prácticas en la creación, la gestión y el intercambio de metadatos es un factor clave para el éxito. La personalización de herramientas de gestión de la información customizados con dichas normas y servicios es fundamental para garantizar la interoperabilidad entre los sistemas de gestión de información.
122 AgriDrupal Drupal y RDF
123 AgriDrupal “paquete de soluciones" para la gestión de información agrícola y la difusión, basado en el Drupal CMS, la comunidad de práctica en torno a estas soluciones Drupal tiene módulos que permiten: exponer los datos internos como RDF; dinámicamente consultar almacenes remotos en RDF; ejecutar consultas dinámicas y almacenar los tripletes resultantes como nodos de acuerdo con un mapeo predefinido Datos Enlazados
124 Uso de Vocabularios Controlados Etiquetar con términos de AGROVOC Un módulo Drupal llamado AgrovocField permite añadir un campo a cualquier tipo de contenido. Proporciona funcionalidades de auto- completado usando los términos que provienen del tesauro AGROVOC y almacena los términos seleccionados en una taxonomía de Drupal, los asocia con el contenido para el que fueron seleccionados, almacena sus traducciones en todos los idiomas habilitados en el sitio web y también almacena la URI Este módulo también se puede configurar para realizar la indexación automática en un campo específico del contenido de la indexación (por ejemplo, un archivo PDF adjunto): con esta opción habilitada en un tipo de contenido, a cualquier contenido nuevo de ese tipo le seran asignadas automáticamente palabras clave AGROVOC
125 Registro “Institución” en Drupal expuesto en RDF
126 AgriOcean DSpace AgriOcean DSpace y el Ontology Plugin
127 AgriOcean Dspace Personalización de Dspace extendida interfaz OAI-PMH con DC, MODS uso de vocabularios controlados ( AGROVOC, ASFA) uso de control de autoridades para revistas (AGRIS) funcionalidades avanzadas de importación y personalizable
128 Tesauro plug-in para AGROVOC Plug-in para Dspace definido por la FAO (febrero de 2009) El control de autoridades de términos de AGROVOC durante la presentación en Dspace - Implementación de herramientas semánticas Desarrollado para Dspace 1.4 por la Universidad Kasetsart (Bangkok, Tailandia)
129 129
130 El control de autoridades en AgriOcean DSpace Títulos de revistas, términos Materias (AGROVOC, ASFA) Opción de búsqueda en las listas alfabéticas (como tablas) con posibilidad de auto sugerencia Para cada vocabulario, campo de entrada adicional
131 Ontología plug-in: concepto y aplicación Herramienta para la presentación de los metadatos Busca en diferentes vocabularios: Agrupación de vocabularios es posible La persona que deposita no tiene que pensar en que vocabulario de usar Herramienta independiente que se puede integrar en diferentes sistemas Busca en los webservices de AGROVOC, y un servidor ASKOSI contiene el AGROVOC, ASFA, Planta Ontología y NERC-C19 (Una ontología geográfica Oceanográfico) ontología.
132 3rd party web services Thesaurus web service 1 Thesaurus web service 2 Thesaurus web service N Ontology plug-in Ontology plugin UI Thesaurus search webapp JQueryJava delegate request response GetConcept(thesaurus, URI, language) request SKOS RDF/XML concept(s) Search(thesaurus, query, language) Request API 132
133 Descubrir servicios de información mediante el registro en directorios CIARD RING
134 Una vez tomada la decisión sobre el uso de herramientas que se integran estándares de metadatos y vocabularios controlados, y los repositorios han sido implementados, el exponer los servicios de información basados en Datos Abiertos Vinculados es esencial para los agregadores de información
135 CIARD RING Infraestructura para la interoperabilidad de los servicios de información de investigación agrícola Permite a los proveedores de información registrar sus servicios bajo diversas categorías para facilitar la búsqueda de fuentes de información relacionada con la agricultura en todo el mundo
136 Funciones proporcionar un mapa de las fuentes de información accesibles con instrucciones sobre la forma en que se pueden buscar de manera efectiva; dar ejemplos de los servicios que muestran las buenas prácticas en la implementación de la "interoperabilidad"; aclarar el nivel y la modalidad de la interoperabilidad de los servicios de información; proporcionar instrucciones para la construcción de servicios integrados mejorados que empaquetan la información de diferentes maneras.
137 Usuarios Diseñado principalmente para profesionales de la información agrícola y desarrolladores de sitios web Consumidores de información agraria como una lista de "favoritos" de servicios de información agrícola
138 http://ring.ciard.net/
139 139
140
141 La agregación de la información de diferentes recursos usando aplicaciones web mash-up AGRIS 2.0 http://agris.fao.org
142 Sistema cooperativo internacional Da acceso libre a recursos bibliográficos y datos abiertos Abarca casi cuarenta años de investigación agrícola Sus metadatos se estructuran e indexan usando el tesauro AGROVOC, usado para enriquecer la indexación de datos en los sistemas de información agrícola Mantenido por la FAO Qué es AGRIS
143 Colección de más de 7,7 millones de registros bibliográficos Sistema RDF, una aplicación mashup que permite a los usuarios consultar el contenido AGRIS-RDF, e interconectar todos los registros a fuentes externas de información 7,000,000 registros bibliográficos se convierten en 7,000,000 páginas mashup! Qué más sabemos sobre AGRIS
144 Flujo de datos
145 Aplicación web enteramente basada en estándares de la Web Semántica Crea páginas de mashup y interconecta los registros a fuentes externas de información Utiliza AGROVOC como columna vertebral para la interconexión con otros conjuntos de datos existentes (DBPedia, worldbank, Ontología geopolítica...) AGRIS 2.0
146 El consumo de datos en AGRIS (1) Centralización: referencias bibliográficas en el dominio AGRIS (la agricultura, la silvicultura, la ganadería, ciencias acuáticas y la pesca, y la alimentación humana) Interconexión: otro tipo de información relacionada con el dominio AGRIS (estadísticas, mapas, perfiles de países, etc)
147 El consumo de datos en AGRIS (2) AGRIS consume metadatos proporcionados por la comunidad y los publica como datos abiertos Los metadatos se obtienen (1) A través de la recolección da datos (por ejemplo, agregadores, repositorios institucionales, a través de protocolos como OAI-PMH) (2) A recibiendo datos a través de proveedores interesados (por ejemplo bibliotecas nacionales o editoriales de revistas)
148 Interoperabilidad
149 Flujo de Datos
150 Centralización: Centro de proceso de datos Los nuevos metadatos se verifican manualmente y aleatoriamente en busca de inconsistencias o errores semánticos recurrentes El formato de entrada se asigna a AGRIS RDF Los metadatos se convierten en AGRIS RDF, usando AgroTagger cuando las palabras clave de AGROVOC no están disponibles Antes de añadir metadatos al triplestore e indexar en el índice Solr, se detectan y gestionan los duplicados, ya que el mismo registro puede ser indexado en varias colecciones o ser duplicado en el mismo repositorio
151 Agrotagger 151 Todavía no se ha implementado Maui es el nombre del héroe mitológico y semidiós polinesio, que se transform en diferentes tipos de ave para realizar hazañas
152 “RDF-ization” bibo:Article bibo:abstract bibo:doi bibo:isbn bibo:language bibo:presentedAt -> bibo:Conference -> dct:title bibo:uri dct:alternative dct:creator -> foaf:organization -> foaf:name dct:creator -> foaf:Person -> foaf:name dct:dateSubmitted dct:description dct:extent dct:identifier dct:isPartOf dct:issued dct:publisher -> foaf:Organization -> foaf:name dct:source dct:subject dct:title dct:type dct:rights Elección de vocabularios y equivalencias!
153 RDF-XML
154 Procedencia Cada registro tiene un identificador AGRIS (ARN), que tiene una estructura predefinida y contiene información sobre la fuente de datos junto con el año de registro bibliográfico de creación "IT 2008 0 00091" se refiere a un registro creado en 2008 a partir de un proveedor específico de datos AGRIS en Italia, cuyo número progresivo es 91 Datos de proveedores de información se almacenan en CIARD RING y son “triplificados” en el centros de datos AGRIS (cada proveedor de datos tiene su propio URI único)
155 Enlaces: ¿cómo funcionan? AGROVOC es la columna vertebral AGROVOC está enlazado con otros tesauros mediante un procedimiento semi-automático (skos: exactMatch, skos: closeMatch) SPARQL endpoints publicados en la Web Webservices y APIs
156
157 157 El Caso IFPRI Un usuario consulta el sistema Registro AGRIS con palabras clave Agrovoc Por lo menos una palabra clave Agrovoc es un nombre de país El sistema de consultas SPARQL endpoint IFPRI (http://data.ifpri.org/sparql/) recupera el Índice Global del Hambre (GHI) y la tasa de mortalidad infantil relacionada con el Paíshttp://data.ifpri.org/sparql/
158 REGISTRO AGRIS en RDF AGROVOC Enlazando
159
160 Algunos números 7.632.842 registros bibliográficos generados por 248 proveedores de contenido ubicados en 153 países, en 52 idiomas en más de 20.000 revistas científicas. 187.238.716 triples en el conjunto de datos AGRIS http://202.45.142.113:10035/repositories/agris http://202.45.142.113:10035/repositories/agris 372.462 triples en la series de datos AGRIS http://202.45.142.113:10035/repositories/jad http://202.45.142.113:10035/repositories/jad 11.414 triples en los centros de datos AGRIS http://202.45.142.113:10035/repositories/centers http://202.45.142.113:10035/repositories/centers
161 Capacitación Creando una comunidad de gestores de la información en agricultura y ciencias afines
162 Portal Web administrado por la FAO de la ONU que difunde las normas y buenas prácticas en la gestión de información y conocimiento para el apoyo al derecho a la alimentación, la agricultura sostenible y el desarrollo rural Apoya la aplicación de la información estructurada y unida mediante el fomento de una comunidad de práctica centrada en los temas de interoperabilidad, reusabilidad y la cooperación ¿Que es aims.fao.org?
163 Ayudar a hacer que la información agrícola cada vez más accesible Fomentar las buenas prácticas ampliamente aplicables y fácil de implementar Adoptar, crear y dar a conocer las normas, herramientas y servicios que permiten a las partes interesadas para construir sistemas de información abiertos e interoperables ¿Qué hacemos?
164
165
166
167 Referencias Baker, Tom et al., 2011. Library Linked Data Incubator Group Final Report. Available at http://www.w3.org/2005/Incubator/lld/XGR-lld- 20111025/,http://www.w3.org/2005/Incubator/lld/XGR-lld- 20111025/ Berners-Lee, Tim, 2009. Is your Linked Open Data 5 Star?. Available athttp://www.w3.org/DesignIssues/LinkedDatahttp://www.w3.org/DesignIssues/LinkedData Berners-Lee, Tim, 2009. Linked Data. Available athttp://www.w3.org/DesignIssues/LinkedDatahttp://www.w3.org/DesignIssues/LinkedData Berners-Lee, Tim, 2009. The Four Rules. Available athttp://www.w3.org/DesignIssues/LinkedDatahttp://www.w3.org/DesignIssues/LinkedData Celli, Fabrizio; Keizer, Johannes, 2013. Release of AGRIS 2.0: Searching agricultural bibliographic data [Webinar] Available at http://aims.fao.org/community/blogs/new-webinaraims-release-agris-20-searching-agricultural-bibliografic-data-interlinkehttp://aims.fao.org/community/blogs/new-webinaraims-release-agris-20-searching-agricultural-bibliografic-data-interlinke CIARD. Available at http://www.ciard.net http://www.ciard.net FAO of the United Nations. AgriDrupal. Available at http://aims.fao.org/tools/agridrupalhttp://aims.fao.org/tools/agridrupal FAO of the United Nations. AgriOcean DSpace. Available at http://aims.fao.org/agriocean-dspacehttp://aims.fao.org/agriocean-dspace FAO of the United Nations. AGROVOC. Available at http://aims.fao.org/standards/agrovoc/,http://aims.fao.org/standards/agrovoc/ FAO of the United Nations. Agricultural Information Management Standards. Available at http://aims.fao.orghttp://aims.fao.org GFAR. CIARD RING. Available at http://ring.ciard.net/http://ring.ciard.net/ Global Open Data for Agriculture and Nutrition. Available at http://godan.info/ http://godan.info/ Heath, Tom; Bizer, Christian. Linked Data: Evolving the Web into a Global Data. Available at Spacehttp://linkeddatabook.com/editions/1.0/http://linkeddatabook.com/editions/1.0/ Linked Open Data Graph. Available at http://inkdroid.org/lod-graph/http://inkdroid.org/lod-graph/ Open Data Certificates. Available at https://certificates.theodi.orghttps://certificates.theodi.org Open Data Institute. Available at http://theodi.orghttp://theodi.org Open Knowledge Foundation. Available at http://okfn.orghttp://okfn.org Open Knowledge Foundation. Datahub. Available at http://datahub.iohttp://datahub.io Open Knowledge Foundation. Open Definition. Available at http://opendefinition.orghttp://opendefinition.org Protovis : a graphical approach to visualization. Available athttp://mbostock.github.io/protovis/http://mbostock.github.io/protovis/ Research Data Alliance : Research Data Sharing without Barriers. Available athttps://rd-alliance.orghttps://rd-alliance.org Subirats, Imma and Zeng, Marcia Lei, 2012. LODE-BD Recommendations 2.0: How to select appropriate encoding strategies for producingLinked Open Data (LOD)-enabled bibliographic data. Available at http://aims.fao.org/lode/bd,http://aims.fao.org/lode/bd Subirats, Imma and Zeng, Marcia Lei, 2012. Meaningful Bibliographic Metadata (M2B): Recommendations of a set of metadata properties and encoding vocabularies. Available at http://aims.fao.org/advice/metadata-beta-versionhttp://aims.fao.org/advice/metadata-beta-version Wikipedia. Open Data. Available at http://en.wikipedia.org/wiki/Open_datahttp://en.wikipedia.org/wiki/Open_data
168 Turno de preguntas Gracias! [email protected]