De Fisher até o Big Data: continuidades e descontinuidades

1 De Fisher até o Big Data: continuidades e descontinuida...
Author: Mikaela Sampaio Castro
0 downloads 0 Views

1 De Fisher até o Big Data: continuidades e descontinuidadesRenato Assunção DCC - UFMG

2 Mensagem principal Estamos vivendo o início de uma revolução na história humana.

3 Mensagem principal Estamos vivendo o início de uma revolução na história humana. Vocês tiraram a sorte grande! Estão no lugar certo, na hora certa.

4 Mensagem principal Estamos vivendo o início de uma revolução na história humana. Vocês tiraram a sorte grande! Estão no lugar certo, na hora certa. O mundo inteiro está vivendo uma revolução.

5 Mensagem principal Estamos vivendo o início de uma revolução na história humana. Vocês tiraram a sorte grande! Estão no lugar certo, na hora certa. O mundo inteiro está vivendo uma revolução. E estatística é um dos principais motores desta revolução.

6 Mensagem principal Estatística também vive uma mudança fundamental, radical.

7 Mensagem principal Estatística vive também uma mudança fundamental, radical. Aproveitem esta oportunidade única, que raramente aparece.

8 Mensagem principal Estatística vive também uma mudança fundamental, radical. Aproveitem esta oportunidade única, que raramente aparece. Posicione-se para os próximos 30 anos. Você terá oportunidades incríveis.

9 E tudo começou em...

10 E tudo começou em... Em Livro Sapiens, de Yuval Harari

11 E tudo começou em... Em 1500. A descoberta da ignorância.

12 E tudo começou em... Em 1500. A descoberta da ignorância.Até 1500, religião ou filósofos antigos eram capazes de responder a todas as perguntas.

13 Era só perguntar Cristãos, judeus, chineses, muçulmanos...Tudo que precisava ser conhecido, já era conhecido.

14 Era só perguntar Cristãos, judeus, chineses, muçulmanos...Tudo que precisava ser conhecido, já era conhecido. Se alguém não soubesse algo? pergunte ao sábio de plantão. A resposta estaria nas escrituras sagradas.

15 Era só perguntar Cristãos, judeus, chineses, muçulmanos: tudo que precisava ser conhecido, já era conhecido. Se alguém não soubesse algo? pergunte ao sábio de plantão. A resposta estaria nas escrituras sagradas. Se ninguém soubesse a resposta para a pergunta (como aparece o arco íris?), então ela é irrelevante.

16 Ciência moderna O nascimento da ciência moderna significa um momento único.

17 Ciência moderna O nascimento da ciência moderna significa um momento único. É quando descobrimos nossa ignorância coletiva.

18 Ciência moderna O nascimento da ciência moderna significa um momento único. É quando descobrimos nossa ignorância coletiva. Admitimos abertamente que não sabemos. Admitimos também que, quando sabemos algo, não é a resposta final.

19 Ciência moderna E também que não temos respostas ainda para questões fundamentais.

20 Ciência moderna E também que não temos respostas ainda para questões fundamentais. Até hoje ainda não sabemos, por exemplo, como o cérebro produz consciência.

21 Ciência moderna E também que não temos respostas ainda para questões fundamentais. Ainda não sabemos, por exemplo, como o cérebro produz consciência. E não ficamos parados: procuramos ativamente respostas baseados em: fatos empíricos, predições verificáveis construídas com matemática.

22 Ciência moderna e capitalismoCasamento muito bem sucedido. Riqueza, saúde, educação...

23 Ciência moderna e capitalismoCasamento muito bem sucedido. Riqueza, saúde, educação... Compare um camponês europeu de 1500 e um trabalhador rural do Brasil em 2017.

24 Comparando

25 Ciência moderna e capitalismoCompare um rei francês em 1500 e um trabalhador rural do Brasil em 2017.

26 Um salto na história

27 E tudo começa em ... 1900 Karl Pearson

28 Pearson foi um gigante Movimento eugênico. Correlation coefficient.Method of moments. Pearson's system of continuous curves. Chi Squared test. P-value. Principal component analysis.

29 Pearson e a estatísticaFundou o 1º departamento de estatística do mundo em 1911: Department of Applied Statistics, University of London, como apoio da Drapers' Company Fundou a Biometrika em 1901, revista científica de estatística, viva e importante até hoje.

30 E a luz se fez... Ronald A. FisherDois artigos, em 1922 e 1925 (aos anos de idade)

31 Quem foi Fisher? Anders Hald: "um gênio que criou praticamente sozinho as fundações para a moderna ciência estatística” Richard Dawkins: "o maior dos sucessores de Darwin"

32 Mais dois momentos Fisher

33 Artigo de 1922 e de 1925 Fisher, R. A. (1922). "On the Mathematical Foundations of Theoretical Statistics“ Philosophical Transactions of the Royal Society A. 222 (594–604): 309–368 Fisher, R. A. (1925). "Theory of Statistical Estimation". Proceedings of the Cambridge Philosophical Society. 22 (5): 700–725. 

34 Principia Statistica

35 Fisher (1922) e Fisher (1925) Fisher tinha 32 e 35 anos de idade.Nestes dois artigos: Informação de Fisher: Menor variância possível... Máxima verossimilhança Propriedades de MLE: atinge o ótimo Suficiência Criou os conceitos que nos guiam até hoje

36 Tomando decisões Abraham Wald

37 Contribuições Teoria da decisãoEstados da natureza Dados Ações Função utilidade Máxima verossimilhança: propriedades assintóticas e testes Análise sequencial

38 Um trabalho durante a guerra

39 Um trabalho durante a guerra

40 Matematizando a Estatística50’s e 60’s: Matematização da estatística Berkeley: Estimadores UMVU, Testes UMPs, teoria da decisão Resultados ótimos limitados a situações simples (1-2 parâmetros) ou assintóticas. Pacotes estatísticos começam a espalhar-se (SAS, SPSS,…) No fim do período: Necessidade de atacar problemas maiores e mais complexos (mais parâmetros, distribuições não normais...)

41 Anos 70 E nascem os modelos de análise de dadosModelos Box-Jenkins ou ARIMA (1970) Modelo linear generalizado (1972) Riscos proporcionais de Cox (1972) Diagnóstico em regressão múltipla: D de Cook (1977), DFFITS (B+K+W, 1980) Tukey: EDA e robustez (1977)

42 O tempo escorre em bits e bytes...80’s: Métodos algorítmicos (e não apenas numéricos) Efron - Bootstrap (1982) CART (1984), Loess (1988), ACE(1985), Projection Pursuit (1985) Kernel smoothing Pacotes estatísticos tradicionais mostram suas limitações: precisamos de ambientes de análise de dados e não de uma coleção de procedimentos

43 Parâmetros vão ao infinito90’s: modelos pouco parcimoniosos, com muitos parâmetros ou não paramétricos, modelos mais realistas, alta capacidade preditiva. GAM, Redes Neurais, Support Vector Machine, random forests, Bagging... MCMC: Reverendo Bayes invade a praia Inferência sobre estruturas de dados mais complexas: dados espaciais, grafos, árvores de ramificação… Modelos de efeitos mistos – aleatórios S, Splus, R, Ox, BUGS E mais C++, Java...

44 Novo milênio: 2000 a 2015 Modelos espaciais e espaço-temporaisModelos para os IMENSOS grafos aleatórios (web, redes sociais) Processamento natural de linguagem Recomendação de itens a usuários Robótica: taxi sem motorista Deep Learning LDA: Organização automática de textos

45 Sensores em todos os lugaresInternet das coisas Nano-bio sensores Exoesqueleto Robôs cuidando de idosos e doentes Drones carregando encomendas e atendimento de urgência Carros autonômos

46 Atualizando Fisher "Suficiência" evoluiu para "compressão de dados“"eficiência"  computação e escala. "parâmetros" e "máxima verossimilhança"  modelos semi e não paramétricos, centenas de parâmetros, com robustez. Bayes  tornou-se possível, na prática. "bootstrap" e "aprendizado de máquina"  algoritmos probabilísticos.

47 Alguns exemplos pessoais

48

49

50 Dois modelos Modelo de visita: the most likely zone that a diseased person visits Modelo de infecção:the most likely zone a person gets infected while visiting Mesmos dados  Diferentes verossimilhanças

51 Contrastando os dois mdelos

52 Dados

53 Alguns resultados

54

55 Exemplos de dados do Twitter

56 O modelo de mistura

57

58 A geometria das redes sociais

59 Detecção de anomalias

60 Onde está o Totó?

61 Experiências em robótica

62 Anomalia dinâmica

63 Incerteza também na fronteira

64 Visão 3-dim

65 Resultados Video

66 Nuvens passageiras

67 Mais de uma ao mesmo tempo

68 Nossa proposta: COWORDS

69 Gerando playlists

70 Uma playlist bem heterogênea

71 Gerador de playlists Gerador de playlists no YouTube

72 Outros trabalhos Raquel Aoki:Luck is hard to beat: The difficulty of sports prediction Ramon Lopes: Efficient Bayesian Methods for Graph-based Recommendation Bruno Barbarioli: Anomaly Detection Under Cost Constraint Guilherme Oliveira Subestimação de mortalidade infantil

73 Outros trabalhos Márcia BarbianSpatial subsemble estimator for large geostatistical data Denise Britto Análise de clusters de processos pontuais espaciais do Twitter Bráulio Veloso Comportamento estocástico do leitor de jornais online Pablo Marcondes: Galo x Raposa: a geografia das torcidas

74 KDD 2016 2800 participantes 1 milhão de dólares em patrocínio.Empresas: facebook, snapchat, AirBnb, Uber, Didi, Baidou, Amazon, etc, etc, etc Todas contratando no evento! Festas para recrutamento!!!

75 A beira de uma revoluçãoQual a sensação de estar aqui? Parece ser um momento de mudança radical na nossa vida. Mas... 05/12/2017

76 A beira de uma revoluçãoAqui está o que realmente podemos sentir. Parece ser um momento como outro qualquer. 05/12/2017

77 O melhor está por vir 05/12/2017