1 Minería de Datos Integrantes : Solange Bunster BerríosSusana Donoso Jorquera Keber Flores Bustos Asignatura : Complejidad de Algoritmos Profesor : Mladen Nanidic Fecha : 03/07/2007
2 Introducción La revolución digital ha permitido que la captura de datos sea fácil, y su almacenamiento tenga un costo casi nulo. Enormes cantidades de datos son recogidas y almacenadas en BD en la vida diaria. Resultado: Para analizar estas enormes cantidades de datos, las herramientas tradicionales de gestión de datos y las herramientas estadísticas no son adecuadas.
3 Introducción Los datos por sí solos no producen beneficio directo. Su verdadero valor consiste en poder extraer información útil para la toma de decisiones. Tradicionalmente se analizaban datos con la ayuda de técnicas estadísticas (resumiendo y generando informes) o validando modelos sugeridos manualmente por los expertos.
4 Introducción Estos procesos son irrealizables a medida que aumenta el tamaño de los datos. Bases de datos con un nº de registros del orden de 109 y 103 de dimensión, son fenómenos relativamente comunes. La tecnología informática puede automatizar este proceso. Minería de datos
5 ¿Qué es la Minería de Datos?Es un mecanismo de explotación que consiste en la búsqueda de información valiosa en grandes volúmenes de datos. Ligada a las bodegas de datos (información histórica) con la cual los algoritmos de minería de datos obtienen información necesaria para la toma de decisiones.
6 ¿Qué es la Minería de Datos?La minería de datos se puede dividir en: Minería de datos predictiva (mdp): usa primordialmente técnicas estadísticas. Minería de datos para descubrimiento de conocimiento (mddc): usa principalmente técnicas de inteligencia artificial.
7 ¿Qué es la Minería de Datos?Definiciones necesarias: Datos: hechos o medidas que describen características de objetos, eventos o personas, es la materia prima de la que se obtendrá la información. Información: Datos analizados y presentados en forma adecuada, de interés para un observador en un momento determinado. Conocimiento: información procesada para emitir juicios que llevan a conclusiones. Meta Conocimiento: Reglas que permiten obtener conocimiento.
8 ¿Qué es la Minería de Datos?Una definición de Minería de datos es: “Un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de obtención de patrones de los datos” Un proceso más general es KDD (Knowledge Discovery on Databases/ Descubrimiento de conocimiento en Bases de Datos). KDD es empleado para describir el proceso de extracción de conocimiento de los datos. Definición: “La extracción no-trivial de conocimiento implícito en los datos que resulte ser previamente desconocido y potencialmente útil”. El conocimiento debe ser nuevo, no obvio y debe estar disponible para el uso.
9 ¿Qué es la Minería de Datos?La minería de datos tiene como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten hacia la toma de decisión.
10 Principales etapas en el proceso de Minería de DatosLos pasos a seguir para la realización de un proyecto de minería de datos son siempre los mismos, independientemente de la técnica específica de extracción de conocimiento usada. El proceso parece secuencial con desarrollo lineal, pero en la práctica, en cualquier etapa se detiene y vuelve atrás.
11 Filtro de Datos El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse) nunca es el idóneo, y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos "en bruto". Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reducen el número de valores posibles (mediante redondeo, clustering,...).
12 Selección de variablesAún después de haber sido preprocesados, en la mayoría de los casos se tiene una cantidad bastante grande de datos. La selección de variables se realiza generalmente de una base de datos operacional. Para facilitar el proceso, los datos son copiados en otra base de datos denominada analítica. Las principales características de una Base de Datos Analítica, es que contienen gran cantidad de registros (información corporativa), son diseñadas para fines específicos y siempre son de consulta. El principal objetivo de la selección de variables es escoger datos que contengan la información o el conocimiento que se desea obtener
13 Extracción de ConocimientoMediante una técnica de minería de datos (visualización, verificación y descubrimiento), se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos. El problema de la extracción de conocimiento en general se puede reducir a la forma como se manipulan los diferentes tipos de datos.
14 Interpretación y EvaluaciónUna vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.
15 Líneas de InvestigaciónWeb Mining: consiste en aplicar tecnicas de mineria de datos a servicios web. Text mining: trata de obtener información sin haber partido de algo.
16 Software Software Weka: Completo y recurrente software de minería de datos de libre distribución. MLC++: Conjunto de librerías y utilidades de minería de datos. Xelopes: Librería con licencia pública GNU para el desarrollo de aplicaciones de minería de datos. C4.5: Sistema clásico de aprendizaje de árboles de decisión. FOIL: Software que permite el aprendizaje de modelos relacionales.
17 Ventajas de Minería de DatosContribuye a la toma de decisiones tácticas y estratégicas proporcionando un sentido automatizado para identificar información clave desde volúmenes de datos generados por procesos tradicionales y de e-Business. Proporciona poderes de decisión a los usuarios del negocio que mejor entienden el problema y el entorno y es capaz de medir la acciones y los resultados de la mejor forma . Genera Modelos descriptivos: permite a empresas, sin tener en cuenta el rubro o el tamaño, explorar automáticamente, visualizar y comprender los datos e identificar patrones, relaciones y dependencias que impactan en los resultados finales de la cuenta de resultados (tales como el aumento de los ingresos, incremento de los beneficios, contención de costes y gestión de riesgos). Genera Modelos predictivos: permite que relaciones no descubiertas e identificadas a través del proceso de Minería de Datos sean expresadas como reglas de negocio o modelos predictivos. Estos outputs pueden comunicarse en formatos tradicionales (presentaciones, informes, información electrónica compartida, etc.) para guiar la estrategia y planificación de la empresa.
18 Ejemplos Clientes que compran pañales tienden a comprar cerveza.Casi el 5% de clientes de un banco nacieron el 11 del noviembre de 1911. Comportamiento y perfil de los usuarios de una red LAN, mediante análisis de tráfico. Clusterización e Identificación de Tendencias Temporales en Bases de datos de Documentos
19 Ej: Clusterización e Identificación de Tendencias Temporales en Bases de datos de Documentos
20 Aplicación: Weka (Waikato Environment for Knowledge Analysis)