Introducción al lenguaje R (y a la estadística e I.A.) 5/09/2008 Mauro López del Fresno “Cuando un suceso tiene exactamente una probabilidad entre un millón.

1 Introducción al lenguaje R (y a la estadística e I.A.) ...
Author: Asunción Carrasco Ríos
0 downloads 2 Views

1 Introducción al lenguaje R (y a la estadística e I.A.) 5/09/2008 Mauro López del Fresno “Cuando un suceso tiene exactamente una probabilidad entre un millón de suceder, se da 9 de cada 10 veces.” Terry Pratchett

2 ¿Qué es la estadística? Es la rama de las matemáticas que los politicos usan para mentirnos encargada dehacer resúmenes. ¿Qué es el análisis estadístico? Es el encontrar un sentido práctico y real a dichos resúmenes

3 Ley de los grandes números Para que la estadística funcione realmente bien se necesitan grandes cantidades de datos. En el Vaticano hay 2 Papas por km^2 Rigurosos estudios realizados en 70 personas... En el hospital XXX se ha incrementado un 100% el número de muertes en el ascensor (2 en lugar de 1)

4 Cuidado con la interpretación ● El 20% de los muertos en accidente de tráfico no llevaban cinturón de seguridad ● La probabiilidad de morir en un hospital es mayor que la de morir en cualquier otro sitio ● La gran mayoría de las personas tienen un número de piernas superior al promedio

5 ¿Por qué odiamos a las probabilidades? Odiamos las estadísticas porque comprendemos que en el fondo no nos dicen nada. Por muy baja que se la probabilidad de que ocurra algo, puede ocurrir. Y lo peor es que con suficientes experimentos... ocurrirá El único caso en el que las personas aceptan las estadísticas negativas es con la lotería. Una tostada untada por un lado de mantequilla caerá siempre por ese lado. Murphy dixit

6 Análisis de datos Muchas veces el ojo no ve lo que el corazón (pre)siente. Datos atípicos

7 Lo que el ojo no ve Datos nuevos o sutilmente diferentes Chuck Norris en una película de acción Chuck Norris en una película romántica

8 Momentos complejos O puede que no los vea con la exactitud adecuada. Los datos multivariantes pueden ser una auténtica locura, sobre todo cuando hay dependencias.

9 Agrupamientos También es la base para juntar elementos con características similares (clustering y clasificación) Básicamente se trata de encontrar el grupo al que un dato pertenece con mayor probabilidad

10 Minería de datos e inteligencia artificial Al proceso de tener cantidades enormes de datos y hacer que mediante procesos automáticos den información nueva se le llama minería de datos. La minería de datos y la I.A. están muy relacionadas, aunque en un principio son dos campos diferentes.

11 Redes neuronales Las redes neuronales intentan emular el comportamiento del cerebro humano. Tenemos nodos y conexiones entre ellos. En una fase de entrenamiento se fortalecen las conexiones adecuadas. Ante nuevos datos el “cerebro” se comporta según lo que haya aprendido. Pros: son rápidas, están muy estudiadas, tolerantes a fallos. Contra: se comportan como una caja negra Aplicaciones: detección de cáncer de mama, pdas, visión artificial,...

12 Redes bayesianas Un bayesiano es alguien que espera un caballo, ve un mono y dice que es un burro Combina de forma gráfica el conocimiento subjetivo del experto con los datos utilizando el método de bayes. Pros: velocidad, fácil de entender, escalable, tolerante a fallos,... Contra: normalmente es necesario discretizar Usos: situaciones donde haya dependencias, clasificación de estrellas variables, diagnósticos,...

13 Lógica difusa Hola, soy Coco, y os voy a explicar la diferencia entre mucho y poco Es una manera de representar datos que no son exactos. ¿Qué significa “bastante cerca”? ¿Por qué con 18 años se va a la cárcel y con 17 y 364 días no? ¿Por qué una estrella es de periodo largo si si frecuencia es mayor que X? Utilidad: muchos sistemas de control, hacer tolerante a fallos ciertos análisis.

14 Todo se resume en... El análisis estadísitico, la minería de datos, las herramientas y aplicaciones auxiliares necesitan ser manejadas con mucho cuidado. No hay programas mágicos que interpreten por nosotros los datos. Solamente van a ayudarnos a no perder tanto tiempo haciéndolo

15 R Como su propio nombre indica, R es un programa para el análisis de datos, enfocado, pero no limitado, al mundo de la estadística. Lógicamente proviene de otro programa anterior llamado... S Es libre y gratuito, con una aceptación muy alta en el mundo de la estadística. Está disponible para Linux, Windows y Mac.

16 Funcionamiento básico > 5+3 [1] 8 > a a [1] 11 R funciona de forma similar a Matlab. Permite operaciones directas o almacenándolas en variables. > # Si queremos saber las variables en memoria > ls() [1] "a" > ls.str() a : num 11

17 Funcionamiento básico Entiende perfectamente NaN (Not a Number) e Infinito > 1/0 [1] Inf > (1/0)-(1/0) [1] NaN Pero es mejor todavía con secuencias de datos > 1:10 [1] 1 2 3 4 5 6 7 8 9 10 > a a*3 [1] 3 6 9 12 15 18 21 24 27 30

18 Funcionamiento básico También tiene implícitas muchas distribuciones de probabilidad (gausiana, exponencial, poisson,...)

19 Sueldo medio Los políticos nos se cansan de decir que el sueldo medio de los españoles es XXX, cuando nosotros cobramos XXX-1500. ¿Nos mienten? Respuesta: no. Usan un dato estadístico (la media) y ocultan otro (la desviación típica) que muestra que no está distribuido uniformemente. Es fácil de comprobar con un gráfico de cajas.

20 Clasificación estelar Tenemos cientos de datos que hemos clasificado. ¿Lo habremos hecho bien? A simple vista es una nube de puntos sin más. R permite hacer gráficas de forma sencilla para compararlas

21 Búsqueda de relaciones Con R es fácil hacer gráficos de parejas para buscar intuitivamente relaciones entre parámetros.

22 Paquetes Cálculos astronómicos Econometría Redes neuronales Series temporales Secuencia de proteinas Análisis de datos ecológicos Análisis bayesiano Identificación de tornados Criptografía Estudio del cáncer de pecho y próstata Particionamiento recursivo Incluso: A comprehensive modeling framework for epidemiological outcomes and a multiple-imputation approach to haplotypic analysis of population-based data

23 FIN Un 44% de personas bostezaron durante la charla. El 15% acabó medio dormido Un 40% estaba pensando en otras cosas Lo que nos queda un 1% que prestó atención, pero como probabilisticamente puede ser cualquiera... ¡Gracias a todos!