DataWarehouse e Inteligencia de Negocios

1 DataWarehouse e Inteligencia de NegociosIntroducción. ...
Author: Ángela Teresa Blanco Escobar
0 downloads 0 Views

1 DataWarehouse e Inteligencia de NegociosIntroducción.

2 Conceptos Generales

3 Conceptos Generales Referencia BibliográficaRalph Kimball: The DataWarehouse Toolkit Bill Inmon: Building the DataWarehouse Salvador Ramos: Microsoft Business Intelligence: Vea el cubo Medio Lleno Sebastián Rodríguez R.: EIAD, Estrategia para la Implementación Inteligente de DW Thomas Davenport: Analytics at work

4 Conceptos Generales Fundamentos. Analizar y Evaluar (OLAP)Registrar y Controlar (OLTP) Transacciones Ventas Inventarios Contabilidad Recursos Humanos Etc- Velocidad de Transacción Integridad de Información Evitar Redundancias “3ª Forma Normal” On-Line Transaction Processing Velocidad de Consultas Apoyo Toma de Decisiones “Desnormalizado” On-Line Analytical Processing

5 Conceptos Generales Definición DataWarehouseConjunto de herramientas y metodologías utilizadas para la administración de información con fines de análisis y gestión. NO ES SOLO UNA TABLA DE HECHOS NO ES SOLO UNA HERRAMIENTA

6 Conceptos Generales Definición DataWarehouse, objetivosAutomatizar los procesos de recopilación y generación de información  usuarios utilizan la información, ya no la construyen. Entregar autonomía a los usuarios Normalizar el proceso de captura de información Normalizar el proceso de entrega de información. Fuente única de Información del Área / Empresa. Información validada.

7 Conceptos Generales Modelo de Dato OLTP Ciudad Sucursal ClienteFactura Sexo Producto Est. Civil Det. Factura

8 Conceptos Generales Definición DataWarehouse e Inteligencia de Negocios. Sistemas Origen OLAP Reporting ETL, ELT Usuarios Avanzados Minería de Datos

9 Conceptos Generales DataWarehouse Definición DataWarehouse Reporting

10 Conceptos Generales Características de un DataWarehouseOrientado a Temas Los datos son organizados por temas para facilitar el entendimiento a los usuarios. Todos los datos relativos a una misma “entidad” quedarán en una tabla. Integrado Debido a que la información procede desde distintos sistemas, es tarea del DW integrar las diversas fuentes y normalizar los datos. Histórico Los cambios en los datos relevantes deben quedar registrados, para luego poder consultarlos en diversos momentos en el tiempo No Volátil Una vez introducida la información, debe quedar almacenada y disponible en formato solo lectura.

11 Conceptos Generales Componentes del Cubo Tabla de HechosAlmacena los indicadores del negocio (datos numéricos), tanto básicos como elementos calculados. Tabla de Dimensiones Almacena los datos descriptivos, por lo general son tablas con un porcentaje muy bajo de filas en relación a las tablas de Hechos, pero pueden contener muchas más columnas. Una correcta y completa definición de campos en la tabla de dimensiones puede ayudar a realizar análisis robusto sobre los datos.

12 Conceptos Generales Topología EstrellaLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información y/o cuando existe un proceso robusto de administración de Información (por ejemplo EIAD). Copo de Nieve Las dimensiones se pueden relacionar con las tablas de hechos, o con otras dimensiones. Esta estrategia es mejor para la administración directa en el modelo de DW.

13 Conceptos Generales Modelo de Datos OLAP – Copo de NieveTabla de Dimensiones Modelo de Datos OLAP – Copo de Nieve Ciudad Sucursal Tabla de Dimensiones Cliente Tabla de Hechos Tabla de Dimensiones Tabla de Dimensiones Ventas Sexo Est. Civil Producto Tabla de Dimensiones Tabla de Dimensiones

14 Cliente, Ciudad, Sexo, Est. CivilConceptos Generales Modelo de Datos OLAP – Estrella Sucursal Cliente, Ciudad, Sexo, Est. Civil Tabla de Dimensiones Ventas Tabla de Dimensiones Tabla de Dimensiones Producto Tabla de Hechos

15 Conceptos Generales Tipos de Tablas de Hechos. SnapShotCada período se agrega un registro para la entidad, sin remplazar ni modificar la foto del período anterior. Ejemplo: Balances, Deudas en el sistema financiero. Transaccional Un registro por cada evento, que ocurre en una fecha determinada. Solo se pueden hacer inserciones. Ejemplo: Sistemas de Ventas. Incremental Un registro por cada ocurrencia, pero la fila contiene múltiples fechas que indica el cambio de estados. A diferencia de los anteriores, en este tipo de estructuras se puede insertar y actualizar los registros. Ejemplo: WorkFlow, Juicios.

16 Conceptos Generales Tipos de Dimensiones: Slow Changing DimensionSCD N° 1 Sobre escribir la información de la dimensión. No existe referencia histórica de los datos. SCD N°2 La clave de la dimensión es compuesta, registra, por cada cambio en la fila de la dimensión (o los campos que sean relevantes), un nuevo registro. SCD N° 3 Agregar una columna adicional por cada columna cuyo valor queremos mantener en la historia.

17 Conceptos Generales Tipos de Dimensiones: Otros tipos de dimensionesDimensión Compuesta Junta varias dimensiones en una sola, el objetivo principal es mejorar el rendimiento de la solución. Ejemplo: Tabla de clientes del modelo ejemplo. Rol Cuando hay mucha información repetida en una tabla de Hechos, es posible quitar esta información y “Factorizarla” en una tabla de dimensión. Esto minimiza el espacio utilizado por al tabla de Hechos y mejora el análisis sobre los datos.

18 Conceptos Generales Tipos de Dimensiones: Dimensión como Tabla de Hechos Es posible encontrar tablas que cumplen la condición de ser Hechos en un modelo, y Dimensión en Otro. Por ejemplo una tabla de hechos que agrupe información de ventas por clientes, puede ser una tabla de dimensiones en el modelo de ventas por Productos. Estas son construcciones poco comunes, que surgen cuando el N° de iteraciones de revisión de los modelos de DW son mayores a 2.

19 Conceptos Generales Modelos de datos complejos: “Constelaciones” Dim 1Hechos 1 Dim 2 Dim 3 Dim 1 Hechos 2 Dim 7 Dim 6 Hechos 2 Dim 5 Dim 4

20 Conceptos Generales Estrategias de Almacenamiento MOLAPAlmacenamiento Multidimensional. Requiere alta utilización de disco. Optimizado para consultas rápidas. ROLAP Almacenamiento en Base Relacional. Alta escalabilidad. Rápida adaptabilidad a cambios en las definiciones HOLAP Mezcla de ambas estrategias.

21 Conceptos Generales Tecnología Disponible. Bases de Datos RelacionalesPermite la implementación de ROLAP, los proveedores de bases de datos están haciendo esfuerzos por mejorar esta tecnología para implementar proyectos de DW. (Ej. SQL Server 2008R2 incorpora optimización para consultas de tipo “Star Join”). Bases de Datos “Columnares”. Diseñadas especialmente para implementar soluciones de tipo analíticas, a diferencia de la anterior, estas B.D. almacenan la información por Columnas y no por Filas, lo que otorga mayor velocidad de lectura y compresión de datos. (Ej. SyBase IQ).

22 Conceptos Generales Tecnología Disponible.Bases de Datos Dimensionales. Implementan la estrategia MOLAP y ROLAP, tienen la ventaja de precalcular las consultas que harán los usuarios, por lo cual los tiempos de respuesta serán muy bajos, sin embargo esto genera tiempos de preprocesamiento muy largos, lo que dificulta su utilización en ambientes muy dinámicos. Ej. SQL Server Analysis Services. Bases de datos “NoSQL” Todas las anteriores tienen la información estructurada. Estas bases de datos están diseñadas para buscar información sobre miles de millones de registros, ya sean fotos, textos, logs, etc. Los tiempos de respuesta son muy cortos para la gran cantidad de información que administra. Ejemplo: Hadoop (estrategia que utiliza Yahoo y Amazon para sus búsquedas).

23 Conceptos Generales Optimización. ÍndicesAdministrar correctamente los índices puede mejorar el rendimiento en forma importante. Estadísticas de utilización entregada por herramientas puede ayudar a definir la estrategia de indexación. Compresión de Datos La compresión de datos ayuda a mejorar el rendimiento de las consultas a la base, sin embargo los ETL pueden verse afectados. Particionamiento Dividir tablas de hechos muy grandes ayuda a mejorar el rendimiento de acceso Discos Optimizar los discos físicos, por ejemplo de Estado Sólido.

24 Conceptos Generales Optimización. Diseño InicialUn buen diseño desde el inicio del proyecto ayudará a disminuir las tareas de administración y corrección de datos. Un buen diseño, según Kimball, debe tener entre 5 a 15 dimensiones. Surrogate Key Utilizar claves numéricas en todas las tablas mejora en forma importante el almacenamiento y rendimiento en búsquedas. En este sentido sustituir las claves provenientes de los sistemas origen proporciona mecanismos de independencia frente a cambios en dichos sistemas.

25 Conceptos Generales Definición Datamart DatamartEs un almacén de datos con información referida a un área de estudio específica, algunas veces vinculada solamente a un área de la empresa. Su estructura permite trabajar con millones de registros En teoría, puede ser implementado en cualquier base de datos (incluso en Excel).

26 Conceptos Generales Estrategias para la Implementación InmonPropone definir un Datawarehouse centralizado que considere el 100% de los requerimientos de la organización, para luego desarrollar Datamart departamentales que resuelvan las problemáticas locales de cada área. Kimball Propone definir e implementar los datamart de cada área, para luego, a partir de estos datamarts, construir el Datawarehouse corporativo.

27 Conceptos Generales TRIVIA: Mitos y Errores a PrevenirLos Datawarehouse y/o Datamart solo pueden almacenar información agregada FALSO Lo más importante es centrarse en la tecnología. FALSO, también en requerimientos del negocio. Proyectos largos aseguran el éxito de la iniciativa. FALSO, Proyectos interminables se diluyen. La presentación de resultados es tan importante como el rendimiento. VERDADERO La tecnología y los requerimientos no cambian en el tiempo. FALSO, hay que adaptar los datos a nuevos req. Los usuarios deben adaptarse a las herramientas complejas FALSO, no las usarán las personas no especialistas.

28 Conceptos Generales Modelos Complejos. ¿Cómo administrar múltiples cubos, con diferentes características y granularidad, que comparten algunas dimensiones?

29 Business Intelligence

30 Business IntelligenceDefiniciones Describe a la colección, preparación y distribución de datos para informes, control de gestión, análisis, supervisión y planificación del rendimiento empresarial.  Fuente: BI Survey. Conjunto de estrategias y herramientas enfocadas a la administración y creación de conocimiento mediante el análisis de datos existentes en una organización o empresa.  Fuente: Wikipedia.

31 Business IntelligenceAdministración de Entornos Complejos BICC Business Intelligence Competency Center SSBI Self-Service Business Intelligence Analytic at Work Metodología Thomas Davenport

32 Business IntelligenceBICC Problema que Resuelve. Existen múltiples iniciativas de BI en una organización sin conexión alguna, lo que en ocasiones genera muchos problemas de coordinación y de “versión única de la verdad”. Características Es una solución permanente, conformada interna y formalmente en una organización, que desarrolla y promueve el uso efectivo de herramientas de inteligencia de negocios, las cuales permiten dar apoyo y despliegue a la estrategia organizacional. Beneficios Explota de mejor forma la inversión existente de BI Coordina y consolida las diversas iniciativas de BI Permite reaccionar rápidamente a cambios del negocio. Reduce los riesgos en la implementación de nuevas iniciativas BI Apoya a los usuarios en el entendimiento completo del negocio a través de diversos análisis.

33 Business IntelligenceBICC

34 Business IntelligenceBICC Data Stewardship Administración de Metadata. Estándar, Calidad y Arquitectura de los datos Support Resolver dudas y problemas de usuarios técnicos y de negocio. BI Delivery Desarrolladores de interfaz de usuario, reporting, pruebas y mantención de lógica de negocio en las aplicaciones. Data Acquisition Desarrolladores de integración y almacenamiento de datos, realizando pruebas y mantención. Advanced Analytics Minería de Datos, modelos estadísticos, optimización, text mining y presupuestación. Training Entrenamiento y capacitación para miembros de proyectos y usuarios de negocios. Vendor Contracts management Administrador de licencias de aplicaciones y actualizaciones.

35 Business IntelligenceBICC Fuente: SAS, Capitalize on Competence, Implement a Business Intelligence Competency Center (BICC)

36 Business IntelligenceSelf-Service BI Self Services BI se define como las facilidades dentro de un ambiente BI que permite a usuarios ser más independiente y menos dependiente de un área de TI. Problema: Tiempo de respuesta de áreas de TI son un cuello de botella  impide el desarrollo de BI como hoy lo conocemos. La solución: Generar un ambiente en el cual los analistas puedan crear y acceder a un conjunto de reportes, consultas y análisis por ellos mismos, con mínima intervención de TI Fuente: Self Services Business Intelligence: Empowering Users to Generate Insights - TDWI

37 Business IntelligenceSelf-Service BI Estas facilidades deben estar enfocadas en cuatro objetivos Fácil acceso a fuentes de datos para reportes y análisis. Herramientas de BI fáciles de usar y soporte mejorado para análisis de datos. Rápido de implementar. Datamart Fácil de administrar. Fuente: Self Services Business Intelligence: Empowering Users to Generate Insights - TDWI

38 SSBI Business Intelligence Self-Service BI Project Manager AnalyticData Gobernance Reporting Analytic

39 Business IntelligenceAnalytic at Works

40 Otros Conceptos de BI

41 Las urgencias son parte importante del trabajo diarioBusiness Intelligence Áreas de BI: Administración del Tiempo. Urgencias: Se destina 20% del tiempo. Si no hay urgencias se trabaja en los proyectos Proyectos: 60% del tiempo será destinado a proyectos. Se considera para planificar y comprometer fechas de entrega Mejoras: 20% del tiempo final del día se dedica a mejoras y proyectos propuestos por las áreas. La prioridad sobre el tiempo la tienen las urgencias, luego los proyectos y finalmente las mejoras y proyectos internos del área Las urgencias son parte importante del trabajo diario

42 BI Maturity levels (IBM)Business Intelligence Modelos de Comparación BI Maturity levels (IBM) Nivel 1 Múltiples Herramientas de reportes y BI Ambiente caótico No hay alineación o consistencia No hay Organización Nivel 2 Algunos equipos trabajan juntos Siguen varios grupos de BI, pero comienzan a trabajar colaborativamente Nivel 3 Estándares elegidos IT y BI trabaja en conjunto Equipos de BI constituidos Se genera consistencia en enfoques y procesos Nivel 4 Conectando Estrategia y Ejecución Organización formal del Área IT, Finanzas y BI trabajar en conjunto Tecnología, personas y estándar de procesos para BI y PM en marcha Fuente: Business Intelligence Strategy, a Practical Guide for Achieving BI Excellence (IBM)

43 Fuente: Gartner ResearchBusiness Intelligence Modelos de Comparación The BI Competency Center – Organizing for Success Comprensión del Negocio Optimizar Relación con StakeHolders Administrar, Mejorar el Negocio Dar Sentido al Negocio Cambiar el Negocio Nuevas fuentes de Ingresos Mejorar el Negocio Retener y Apalancar Alinear el Negocio Eficiencia, consistencia, Rentabilidad Entender el Negocio Entender Meta Objetivo Fuente: Gartner Research

44 Business IntelligenceModelos de Comparación: SAS, Business Analytics for the CIO

45 Conclusiones