1 Herramienta ETL geo-espacial libreProyecto BeETLe: Herramienta ETL geo-espacial libre Juan Arévalo, César Martinez, Walter Simonazzi Girona, 10 de Marzo de 2010
2 Contenidos Contexto del proyecto Presentación del ETC-LUSIEntorno de trabajo Necesidades de procesado Metodología actual. Problemática Solución: proyecto BeETLe Objetivos del proyecto Unificar tecnologías Procesamiento de datos de gran tamaño Estandarización y documentación de flujos de trabajo Paralelización de tareas Roadmap Soñando en voz alta: Posibles líneas de trabajo BI refers to the skills, technologies, applications and practices used to help a business in our case it use to supply scientific support with proper tools to policy-makers. There are different types of solutions to implement BI that can be more or less complex for instance: querys and reports, OLAP cubes, data mining, etc.. Mediante las herramientas y técnicas ELT (extraer, cargar y transformar), o actualmente ETL (extraer, transformar y cargar) se extraen los datos de distintas fuentes, se depuran y preparan (homogeneización de los datos) para luego cargarlos en un almacén de datos.
3 ETC-LUSI Centro Temático Europeo de Usos del Suelo e Información Espacial (Universidad Autónoma de Barcelona): Consorcio Europeo de apoyo a la Agencia Europea de Medio Ambiente Principal temática de trabajo: Monitorización de los usos y cambios de usos del suelo y sus consecuencias medioambientales Otras temáticas relacionadas con información espacial: costas, contabilidad ambiental... COSTAS
4 ETC-LUSI Gran cantidad de información a escala Europea→ Datos de gran tamaño → Datos ráster, vectoriales y no-geo Datos actualizados periódicamente → Flujos de trabajo repetitivos Diversos proyectos a escala europea: FP-7, Espon, Otros proyectos a escala nacional y regional BI refers to the skills, technologies, applications and practices used to help a business in our case it use to supply scientific support with proper tools to policy-makers. There are different types of solutions to implement BI that can be more or less complex for instance: querys and reports, OLAP cubes, data mining, etc.. Mediante las herramientas y técnicas ELT (extraer, cargar y transformar), o actualmente ETL (extraer, transformar y cargar) se extraen los datos de distintas fuentes, se depuran y preparan (homogeneización de los datos) para luego cargarlos en un almacén de datos.
5 Metodología actual (proyecto LEAC)Múltiples herramientas y lenguajes de programación Procesos eminentemente interactivos BI refers to the skills, technologies, applications and practices used to help a business in our case it use to supply scientific support with proper tools to policy-makers. There are different types of solutions to implement BI that can be more or less complex for instance: querys and reports, OLAP cubes, data mining, etc.. Mediante las herramientas y técnicas ELT (extraer, cargar y transformar), o actualmente ETL (extraer, transformar y cargar) se extraen los datos de distintas fuentes, se depuran y preparan (homogeneización de los datos) para luego cargarlos en un almacén de datos.
6 Metodología actual. ProblemáticaMúltiples herramientas: → Usuarios experimentados → Coste de licencias Conversión de formatos →Tiempo de procesado Procesos interactivos → Tiempo de usuario Dificultad para estandarizar los flujos de trabajo → error humano Dificultad para documentar los flujos de trabajo Limitaciones o errores del software DATA PROCESSING EFFORT We have seen the uses of the LEAC tool, but it is also important to consider the amount of data processing involved in the production of the LEAC database Diagram shows the LEAC data-flow: lots of steps, lots of tools, lots of format conversions Consequences (ver cuadro)
7 Solución: proyecto BeETLeHerramienta ETL geo-espacial Basado en (Geo-)Kettle y Sextante (+Grass?) DATA PROCESSING EFFORT We have seen the uses of the LEAC tool, but it is also important to consider the amount of data processing involved in the production of the LEAC database Diagram shows the LEAC data-flow: lots of steps, lots of tools, lots of format conversions Consequences (ver cuadro)
8 Solución: proyecto BeETLeSEXTANTE INTEGRATION IN GEOKETTLE
9 Solución: proyecto BeETLeHerramienta ETL geo-espacial Basado en (Geo-)Kettle y Sextante DATA PROCESSING EFFORT We have seen the uses of the LEAC tool, but it is also important to consider the amount of data processing involved in the production of the LEAC database Diagram shows the LEAC data-flow: lots of steps, lots of tools, lots of format conversions Consequences (ver cuadro)
10 ETL (Extract, Transform, Load)Herramientas que definen flujos de datos para automatizar procesos: ETL INTRODUCTION The model documents the process in a formal way: the ETL model is executable, but it also describes the process in detail El modelo documenta formalmente el flujo de trabajo Permite ejecución paralela de procesos
11 4.2. Geokettle - ETL for Geospatial DataKettle (Pentaho Data Integration): Herramienta ETL open source (LGPL) Parte del paquete de BI desiñado por Pentaho GeoKettle ETL for Geospatial Data: Extensión de Kettle con soporte espacial Soporte limitado de operaciones vectoriales (no hay soporte ráster) Desarrollado por el grupo de investigación GeoSOA en la Universidad de Laval, Canadá. Kettle and GeoKettle introduction
12 Kettle Interfaz sencilla e intuitiva Ejecución paralela y distribuidaGran número de fuentes de datos y transformaciones EL ADVANTAGES
13 BeETLe: objetivos Unificar tecnologías: Facilidad de usoLicencias de software Menos conversiones de formato – mayor rendimiento DATA PROCESSING EFFORT We have seen the uses of the LEAC tool, but it is also important to consider the amount of data processing involved in the production of the LEAC database Diagram shows the LEAC data-flow: lots of steps, lots of tools, lots of format conversions Consequences (ver cuadro)
14 BeETLe: objetivos Estandarización y documentación de flujos de trabajo: Eliminar el error humano Procesos reproducibles y auditables Procesos no interactivos: tiempo de proceso y de usuario DATA PROCESSING EFFORT We have seen the uses of the LEAC tool, but it is also important to consider the amount of data processing involved in the production of the LEAC database Diagram shows the LEAC data-flow: lots of steps, lots of tools, lots of format conversions Consequences (ver cuadro)
15 BeETLe: objetivos Paralelización de tareas Aprovechando tecnología ETLProblemática específica GIS DATA PROCESSING EFFORT We have seen the uses of the LEAC tool, but it is also important to consider the amount of data processing involved in the production of the LEAC database Diagram shows the LEAC data-flow: lots of steps, lots of tools, lots of format conversions Consequences (ver cuadro)
16 BeETLe: objetivos Procesamiento de datos de gran tamañoSoftware libre: permite mejorar y adaptar el software Se beneficia del procesado en paralelo (herramientas ETL) DATA PROCESSING EFFORT We have seen the uses of the LEAC tool, but it is also important to consider the amount of data processing involved in the production of the LEAC database Diagram shows the LEAC data-flow: lots of steps, lots of tools, lots of format conversions Consequences (ver cuadro)
17 BeETLe: funcionalidadSoporte ráster, vectorial y tabular Todos los algoritmos de Sextante disponibles en un ETL Además de todas las características que ofrece Kettle DATA PROCESSING EFFORT We have seen the uses of the LEAC tool, but it is also important to consider the amount of data processing involved in the production of the LEAC database Diagram shows the LEAC data-flow: lots of steps, lots of tools, lots of format conversions Consequences (ver cuadro)
18 Procesado de datos de gran tamañoProblemática: Algoritmos que procesan el dato completo en memoria Drivers que cargan la capa completa en memoria (lectura) Drivers que escriben la capa completa en memoria antes de volcarla a disco (escritura) DATA PROCESSING EFFORT We have seen the uses of the LEAC tool, but it is also important to consider the amount of data processing involved in the production of the LEAC database Diagram shows the LEAC data-flow: lots of steps, lots of tools, lots of format conversions Consequences (ver cuadro)
19 Paralelización de algoritmosProblemática: Algoritmos paralelizables y no paralelizables Arquitectura de Sextante vs GeoKettle Distribución de datos y tareas; consolidación de resultados DATA PROCESSING EFFORT We have seen the uses of the LEAC tool, but it is also important to consider the amount of data processing involved in the production of the LEAC database Diagram shows the LEAC data-flow: lots of steps, lots of tools, lots of format conversions Consequences (ver cuadro)
20 Roadmap Milestone 1: Integración básica de Sextante (Kettle Jobs):Soporte ráster (GeoTiff, ASCII Grid), vectorial (SHP) y tabular (DBF) Soporte de todos los algoritmos de Sextante Ejecución no paralela. Status: ~ 90% Milestone 2: Ampliación del soporte ráster (formato Binary GRID) Mejora de velocidad en escritura de SHPs Nuevos algoritmos de Sextante Milestone 3: Arquitectura de ejecución paralela en Sextante Ejecución paralela en BeETLe (soporte de un subconjunto de algoritmos) Milestone N: Ejecución paralela de más algoritmos Soporte de otros formatos DATA PROCESSING EFFORT We have seen the uses of the LEAC tool, but it is also important to consider the amount of data processing involved in the production of the LEAC database Diagram shows the LEAC data-flow: lots of steps, lots of tools, lots of format conversions Consequences (ver cuadro)
21 Soñando en voz alta Servicios remotos (WMS, WFS, etc) como fuentes de datos Servicios WPS como transformaciones de BeETLe BeETLe como modelizador de flujos WPS –-> Flujos de Kettle publicados como servicios WPS SEXTANTE INTEGRATION IN GEOKETTLE
22 ¡Buscamos colaboradores!Enlaces ¡Buscamos colaboradores! Blog oficial: Proyecto en OSOR (SVN, tickets, documentación de desarrollo): ETC-LUSI: SEXTANTE INTEGRATION IN GEOKETTLE
23 Muchas gracias Moltes gràcies Eskerrik Asko Muitas gracias * * * * * Dziekuje Merci beaucoup Mного Благодаря Obrigado Paldies Ευχαριστώ Tack Thank you very much Dank u Hvala Köszönöm Dekuj Multumesc Dakujem Danke Takk Aitäh Grazzi Kiitos Grazie Dêkuji Cпаси́бо شُكْرًا For further information, please contact: ETCLUSI Universitat Autònoma de Barcelona Facultat de Ciències, Edifici C-5, 4ª Planta E BELLATERRA (Barcelona) Spain, EU P: F: @: Or visit our website at: ANY QUESTION? 23