class: center, middle, inverse, title-slide # Estatística, Ciência de Dados e Sociedade ###
Prof. Steven Dutt Ross
Atividades
Aulas
Livro
--- ## Por que usar o R? <P>1 . O R é a principal ferramenta para estatística e para análise de dados. É mais do que um software estatístico, é uma linguagem de programação. <P>2. Você pode usá-lo facilmente em qualquer lugar. <P>3. É grátis. Você pode usa-lo em qualquer empresa, escola, em qualquer local sem ter que convencer o chefe a comprar uma licença. <P>4. Existem mais de 10.000 pacotes de contribuições de usuários disponíveis no site do R (cran). Muitos pacotes são colocados pelos membros mais proeminentes de seus respectivos campos. <P>5. R tem uma grande (e crescente) comunidade de usuários. As listas de discussões fornecem acesso a muitos usuários e autores de pacotes que são especialistas em seus campos. <BR> <P>OBS - Esses slides foram feitos no R --- ## Por que usar o R? ![](index_files/figure-html/unnamed-chunk-1-1.png)<!-- --> <BR> Outras organizações que utilizam o R: IBGE, FGV, IBOPE, Ministério do planejamento, etc... --- ## Grandes organizações que usam o R 1. Facebook - For behavior analysis related to status updates and profile pictures. 2. Google - For advertising effectiveness and economic forecasting. 3. Twitter - For data visualization and semantic clustering 4. Microsoft - Acquired Revolution R company and use it for a variety of purposes. 5. Uber - For statistical analysis 6. Airbnb - Scale data science. 7. IBM - Joined R Consortium Group 8. ANZ - For credit risk modeling 9. HP 10. Ford 11. Roche 12. New York Times - For data visualization 13. Mckinsey - [Fonte](http://www.listendata.com/2016/12/companies-using-r.html?m=1) --- ## R nas melhores revistas científicas ![](index_files/figure-html/unnamed-chunk-2-1.png)<!-- --> [Fonte](http://estatisticacomr.com.br/r-nas-revistas-cientificas/) --- ## Análises Desenvolvidas no R [Transparência](https://duttross.shinyapps.io/transparencia1/) [Engajamento Orçamentário](https://duttross.shinyapps.io/Engajamento/) [Mapa da Rocinha](https://dataunirio.github.io/Rocinha/) [Unirio em números](http://rpubs.com/StevenDuttRoss/unirioemnumeros) [Gráfico Interativo DATAUNIRIO](https://dataunirio.github.io/streetview/) [Gráfico Interativo GAE](http://gae.uniriotec.br/4/visualizacao.html) --- # Minha resposta a afirmação: # "Não sou você (estatístico), nunca vou conseguir fazer isso" ## Análise Desenvolvida no R pelos(as) alunos() [Trabalhos dos alunos (as)](https://dataunirio.github.io/Trabalhos_alunos_UNIRIO/) --- ## Entender não basta Ideia: Quero desenvolver! ![](index_files/figure-html/unnamed-chunk-3-1.png)<!-- --> ###Parece interessante? --- ## Letramento (Literacia) e Numeramento (Numeracia) "Saber em uso",**saber agir no cotidiano** para resolver situações reais (em oposição ao"saber inerte", **acumulação de conteúdos** sem saber como utilizá-los) ## Aplicação de conceitos A ênfase será na compreensão e aplicação de conceitos e técnicas, em vez da demonstração de teoremas. O curso é baseado na aplicação prática usando a linguagem computacional R ou Python. ### Sobre o trabalho final da disciplina Você deve **formular** um problema em seu contexto do mundo real, **planejar** seu trabalho estatístico em detalhes, **resolver** o problema através dos gráficos e estatísticas necessárias, e **concluir**, explicando que suas descobertas dizem sobre o contexto do mundo real (parecer). --- ## Registros e variáveis Os registros são objetos descritos por um conjunto de dados, podendo ser pessoas, animais, municípios, estados ou objetos. Uma variável é qualquer característica do registro. Uma variável pode assumir valores diferentes para registros diferentes --- ## Classificação de Variáveis qualitativas e quantitativas **Variáveis qualitativas** posiciona um registro em um dos diversos grupos ou categorias. Também chamada de **Variável categórica** **Variáveis quantitativa** assume valores númericos com os quais faz sentido efetuarem-se operações aritméticas, tais como adição e cálculo de médias. Os valores de uma variável quantitativa são usualmente registrados em uma unidade de medida, tal como segundos ou quilogramas. --- ## Variáveis qualitativas e quantitativas Variável qualitativa **Nominal** não existe hierarquia/ordenação entre as categorias. Exemplos: *sexo, cor, bairro, fumante/não fumante, doente/sadio*. Variável qualitativa **Ordinal** existe uma hierarquia/ordenação entre as categorias. Exemplos: *escolaridade (1o, 2o, 3o graus), patente militar (soldado, cabo, sargento), avaliação (péssimo, ruim, regular, bom, ótimo)* Variável quantitativa **Discreta** características mensuráveis que podem assumir apenas um número finito ou infinito contável de valores e, assim, somente fazem sentido valores inteiros. Geralmente são o resultado de contagens. Exemplos: *número de filhos, número de pessoas na família, número de cigarros fumados por dia.* Variável quantitativa **Contínua** características mensuráveis que assumem valores em uma escala contínua, para as quais valores fracionais fazem sentido. Exemplos: *renda, preço, peso, altura, tempo.* - [Fonte](http://leg.ufpr.br/~silvia/CE055/node8.html) --- ## O que é um banco de dados Iris Data: 50 flores de 03 espécies <table> <thead> <tr> <th style="text-align:right;"> Sepal.Length </th> <th style="text-align:right;"> Sepal.Width </th> <th style="text-align:right;"> Petal.Length </th> <th style="text-align:right;"> Petal.Width </th> <th style="text-align:left;"> Species </th> </tr> </thead> <tbody> <tr> <td style="text-align:right;"> 5.1 </td> <td style="text-align:right;"> 3.5 </td> <td style="text-align:right;"> 1.4 </td> <td style="text-align:right;"> 0.2 </td> <td style="text-align:left;"> setosa </td> </tr> <tr> <td style="text-align:right;"> 4.9 </td> <td style="text-align:right;"> 3.0 </td> <td style="text-align:right;"> 1.4 </td> <td style="text-align:right;"> 0.2 </td> <td style="text-align:left;"> setosa </td> </tr> <tr> <td style="text-align:right;"> 4.7 </td> <td style="text-align:right;"> 3.2 </td> <td style="text-align:right;"> 1.3 </td> <td style="text-align:right;"> 0.2 </td> <td style="text-align:left;"> setosa </td> </tr> <tr> <td style="text-align:right;"> 4.6 </td> <td style="text-align:right;"> 3.1 </td> <td style="text-align:right;"> 1.5 </td> <td style="text-align:right;"> 0.2 </td> <td style="text-align:left;"> setosa </td> </tr> <tr> <td style="text-align:right;"> 5.0 </td> <td style="text-align:right;"> 3.6 </td> <td style="text-align:right;"> 1.4 </td> <td style="text-align:right;"> 0.2 </td> <td style="text-align:left;"> setosa </td> </tr> <tr> <td style="text-align:right;"> 5.4 </td> <td style="text-align:right;"> 3.9 </td> <td style="text-align:right;"> 1.7 </td> <td style="text-align:right;"> 0.4 </td> <td style="text-align:left;"> setosa </td> </tr> <tr> <td style="text-align:right;"> 4.6 </td> <td style="text-align:right;"> 3.4 </td> <td style="text-align:right;"> 1.4 </td> <td style="text-align:right;"> 0.3 </td> <td style="text-align:left;"> setosa </td> </tr> <tr> <td style="text-align:right;"> 5.0 </td> <td style="text-align:right;"> 3.4 </td> <td style="text-align:right;"> 1.5 </td> <td style="text-align:right;"> 0.2 </td> <td style="text-align:left;"> setosa </td> </tr> <tr> <td style="text-align:right;"> 4.4 </td> <td style="text-align:right;"> 2.9 </td> <td style="text-align:right;"> 1.4 </td> <td style="text-align:right;"> 0.2 </td> <td style="text-align:left;"> setosa </td> </tr> <tr> <td style="text-align:right;"> 4.9 </td> <td style="text-align:right;"> 3.1 </td> <td style="text-align:right;"> 1.5 </td> <td style="text-align:right;"> 0.1 </td> <td style="text-align:left;"> setosa </td> </tr> </tbody> </table> Cada linha é um registro e cada coluna é um atributo (que chamamos de variável) --- ## Outro exemplo: Swiss Data Províncias da Suiça
--- ## Outro exemplo: Midwest Data Informações Demográficas dos municípios do Meio-Oeste ``` ## [1] 437 28 ```
--- ## Outro exemplo: Mtcars Data Performance de carros (10 informações) <table> <thead> <tr> <th style="text-align:left;"> </th> <th style="text-align:right;"> mpg </th> <th style="text-align:right;"> cyl </th> <th style="text-align:right;"> disp </th> <th style="text-align:right;"> hp </th> <th style="text-align:right;"> drat </th> <th style="text-align:right;"> wt </th> <th style="text-align:right;"> qsec </th> <th style="text-align:right;"> vs </th> <th style="text-align:right;"> am </th> <th style="text-align:right;"> gear </th> <th style="text-align:right;"> carb </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Mazda RX4 </td> <td style="text-align:right;"> 21.0 </td> <td style="text-align:right;"> 6 </td> <td style="text-align:right;"> 160.0 </td> <td style="text-align:right;"> 110 </td> <td style="text-align:right;"> 3.90 </td> <td style="text-align:right;"> 2.620 </td> <td style="text-align:right;"> 16.46 </td> <td style="text-align:right;"> 0 </td> <td style="text-align:right;"> 1 </td> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 4 </td> </tr> <tr> <td style="text-align:left;"> Mazda RX4 Wag </td> <td style="text-align:right;"> 21.0 </td> <td style="text-align:right;"> 6 </td> <td style="text-align:right;"> 160.0 </td> <td style="text-align:right;"> 110 </td> <td style="text-align:right;"> 3.90 </td> <td style="text-align:right;"> 2.875 </td> <td style="text-align:right;"> 17.02 </td> <td style="text-align:right;"> 0 </td> <td style="text-align:right;"> 1 </td> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 4 </td> </tr> <tr> <td style="text-align:left;"> Datsun 710 </td> <td style="text-align:right;"> 22.8 </td> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 108.0 </td> <td style="text-align:right;"> 93 </td> <td style="text-align:right;"> 3.85 </td> <td style="text-align:right;"> 2.320 </td> <td style="text-align:right;"> 18.61 </td> <td style="text-align:right;"> 1 </td> <td style="text-align:right;"> 1 </td> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 1 </td> </tr> <tr> <td style="text-align:left;"> Hornet 4 Drive </td> <td style="text-align:right;"> 21.4 </td> <td style="text-align:right;"> 6 </td> <td style="text-align:right;"> 258.0 </td> <td style="text-align:right;"> 110 </td> <td style="text-align:right;"> 3.08 </td> <td style="text-align:right;"> 3.215 </td> <td style="text-align:right;"> 19.44 </td> <td style="text-align:right;"> 1 </td> <td style="text-align:right;"> 0 </td> <td style="text-align:right;"> 3 </td> <td style="text-align:right;"> 1 </td> </tr> <tr> <td style="text-align:left;"> Hornet Sportabout </td> <td style="text-align:right;"> 18.7 </td> <td style="text-align:right;"> 8 </td> <td style="text-align:right;"> 360.0 </td> <td style="text-align:right;"> 175 </td> <td style="text-align:right;"> 3.15 </td> <td style="text-align:right;"> 3.440 </td> <td style="text-align:right;"> 17.02 </td> <td style="text-align:right;"> 0 </td> <td style="text-align:right;"> 0 </td> <td style="text-align:right;"> 3 </td> <td style="text-align:right;"> 2 </td> </tr> <tr> <td style="text-align:left;"> Valiant </td> <td style="text-align:right;"> 18.1 </td> <td style="text-align:right;"> 6 </td> <td style="text-align:right;"> 225.0 </td> <td style="text-align:right;"> 105 </td> <td style="text-align:right;"> 2.76 </td> <td style="text-align:right;"> 3.460 </td> <td style="text-align:right;"> 20.22 </td> <td style="text-align:right;"> 1 </td> <td style="text-align:right;"> 0 </td> <td style="text-align:right;"> 3 </td> <td style="text-align:right;"> 1 </td> </tr> <tr> <td style="text-align:left;"> Duster 360 </td> <td style="text-align:right;"> 14.3 </td> <td style="text-align:right;"> 8 </td> <td style="text-align:right;"> 360.0 </td> <td style="text-align:right;"> 245 </td> <td style="text-align:right;"> 3.21 </td> <td style="text-align:right;"> 3.570 </td> <td style="text-align:right;"> 15.84 </td> <td style="text-align:right;"> 0 </td> <td style="text-align:right;"> 0 </td> <td style="text-align:right;"> 3 </td> <td style="text-align:right;"> 4 </td> </tr> <tr> <td style="text-align:left;"> Merc 240D </td> <td style="text-align:right;"> 24.4 </td> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 146.7 </td> <td style="text-align:right;"> 62 </td> <td style="text-align:right;"> 3.69 </td> <td style="text-align:right;"> 3.190 </td> <td style="text-align:right;"> 20.00 </td> <td style="text-align:right;"> 1 </td> <td style="text-align:right;"> 0 </td> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 2 </td> </tr> <tr> <td style="text-align:left;"> Merc 230 </td> <td style="text-align:right;"> 22.8 </td> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 140.8 </td> <td style="text-align:right;"> 95 </td> <td style="text-align:right;"> 3.92 </td> <td style="text-align:right;"> 3.150 </td> <td style="text-align:right;"> 22.90 </td> <td style="text-align:right;"> 1 </td> <td style="text-align:right;"> 0 </td> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 2 </td> </tr> <tr> <td style="text-align:left;"> Merc 280 </td> <td style="text-align:right;"> 19.2 </td> <td style="text-align:right;"> 6 </td> <td style="text-align:right;"> 167.6 </td> <td style="text-align:right;"> 123 </td> <td style="text-align:right;"> 3.92 </td> <td style="text-align:right;"> 3.440 </td> <td style="text-align:right;"> 18.30 </td> <td style="text-align:right;"> 1 </td> <td style="text-align:right;"> 0 </td> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 4 </td> </tr> </tbody> </table> --- ## Geralmente acompanhado de um DICIONÁRIO DE DADOS Por exemplo: * mpg: Miles/(US) gallon * cyl: Number of cylinders * disp: Displacement (cu.in.) * hp: Gross horsepower * drat:Rear axle ratio * wt: Weight (1000 lbs) * qsec: 1/4 mile time * vs: V/S * am: Transmission (0 = automatic, 1 = manual) * gear: Number of forward gears * carb: Number of carburetors --- Por exemplo, esse banco de dados que estamos trabalhando tem 32 carros e 11 variáveis. No R isso pode ser verificado pelo comando dim(mtcars), e names(mtcars) ```r dim(mtcars) ``` ``` ## [1] 32 11 ``` ```r names(mtcars) ``` ``` ## [1] "mpg" "cyl" "disp" "hp" "drat" "wt" "qsec" "vs" "am" "gear" ## [11] "carb" ``` --- ## O objetivo é extrair informações de um banco de dados Por exemplo: Valor médio das variáveis HP & mpg e tabela dos CyL dos carros desse banco de dados ``` ## [1] 146.6875 ``` ``` ## [1] 20.09062 ``` ``` ## ## 4 6 8 ## 11 7 14 ``` --- ## Outro modo de fazer isso é por meio de gráficos ![](index_files/figure-html/unnamed-chunk-7-1.png)<!-- --> --- ## Atribuir um objeto no R O R é uma linguagem orientada a objetos que permite a manipulação e a análise de dados. AA <- 5 <br> BB <- 7 <br> CC <- AA^2 <br> DD <-AA+BB <br> --- ## Criando vetores O comando *c()* pode ser usada para criar vetores de objetos juntando coisas. ```r x <- c(0.3, 0.9, 1.1) ## numerico y <- c(TRUE, FALSE, FALSE) ## logico y <- c(T, F, F) ## logico z <- c("a", "b", "c") ## caracter w <- 10:20 ## inteiro k <- c(1+9i, 2+4i, 8+2i) ## complexo l <- c("red","blue","green") ## cores ``` --- ## Data.Frame: O seu banco de dados no R Podemos utilizar mais informações do que apenas dados de uma mesma classe, como um vetor ou uma matriz. Uma base de dados, em geral, é feita de dados de diversas classes diferentes. Como guardar informações de diversas classes diferentes? A resposta para isso é o data.frame. Por exemplo, se eu tivesse um departamento de uma empresa com esses funcionarios: ```r Funcionarios <- data.frame(nome = c("Marx", "Weber", "Durkheim","Arendt", "Maquiavel"), sexo = c("M", "M", "M", "F","M"), salario = c(1000, 1200, 1300, 2000, 500), stringsAsFactors = FALSE) Funcionarios ``` ``` ## nome sexo salario ## 1 Marx M 1000 ## 2 Weber M 1200 ## 3 Durkheim M 1300 ## 4 Arendt F 2000 ## 5 Maquiavel M 500 ``` --- ## Data.Frame: Outro banco de dados Outro exemplo. Se eu tivesse uma turma desse semestre com esses alunos: ```r Turma <- data.frame(nome_aluno = c("Jurgen Habermas", "Karl Popper", "John Rawls","Paulo Freire"), sexo = c("M", "M", "M","M"), CR = c(6.98, 7.01, 7.03, 8.88), stringsAsFactors = FALSE) ``` ``` ## nome_aluno sexo CR ## 1 Jurgen Habermas M 6.98 ## 2 Karl Popper M 7.01 ## 3 John Rawls M 7.03 ## 4 Paulo Freire M 8.88 ``` --- ## Data.Frame: Outro banco de dados Para selecionar colunas em um *data.frame* é utilizado o simbolo $ ```r Funcionarios$nome ``` ``` ## [1] "Marx" "Weber" "Durkheim" "Arendt" "Maquiavel" ``` ```r Turma$nome_aluno ``` ``` ## [1] "Jurgen Habermas" "Karl Popper" "John Rawls" "Paulo Freire" ``` --- ## Exploração dos dados 1. Inicie pelo exame de cada variável por si mesma. Em seguida, estude as relações entre essas variáveis. <p> 2. Sugestão: Tente fazer duas ações. 1) Inicie pelo gráfico. 2) Adicione então resumos numéricos (exemplo média, moda, mediana) de aspectos específicos dos dados. ## Distribuição de uma variável * A Distribuição de uma variável nos diz quais os valores assumidos por ela e qual a frequência com que ela os assume. * Os valores de uma variável categórica são rótulos para as categorias. A distribuição de uma variável categorica lista as categorias e dá a contagem e o percentual de registros que estão em cada uma delas. --- background-image: url(http://www.planwallpaper.com/cool-background#static/images/cool-background.jpg) background-position: 50% 50% class: center, bottom, inverse ## Distribuição de uma variável quantitativa --- ## Distribuição de uma variável quantitativa variáveis quantitativas geralmente assumem muitos valores. A distribuição nos diz quais valores ela assume e com qual frequência os assume. O gráfico da distribuição torna-se mais claro se agrupamos valores próximos. O gráfico mais comum da distribuição de uma variável quantitativa é o **histograma**. ![](index_files/figure-html/hist-1.png)<!-- --> --- ## Análise de um histograma 1. Em qualquer gráfico de dados, procure pelo **padrão geral** e por **desvios** notáveis desse padrão. 2. Você pode descrever o padrão geral de um histograma por sua ** forma, centro e dispersão.** Um tipo importante de desvio é o **outlier** (valor atípico), um valor individual que está fora do padrão geral. Um histograma interessante pode ser visto [aqui](http://tinlizzie.org/histograms/) --- ## Medida de centro: média, mediana, moda Relembrando... A Média é a soma de todos os valores de um conjunto de observações dividido pelo número de observações. ``` ``` `$$\bar{X}=\frac{1}{n}\sum_{i=1}^nX_i$$` A Mediana (Md) é o ponto no meio de uma distribuição, o número tal que metade das observações é menor que ele e metade , maior. <p> A Moda é a observação que mais se repete --- background-image: url(http://www.planwallpaper.com/cool-background#static/images/cool-background.jpg) background-position: 50% 50% class: center, bottom, inverse ## Média, mediana e moda --- ## Medida de centro: média, mediana, moda Quando a Mediana é melhor do que a média para representar o centro de um conjunto de dados? Para responder isso, vamos criar dois vetores no R: <p> vetor1<- c(1,2,3,4,5) e <p> vetor2<- c(1,2,3,4,50000) --- ## Medida de centro: média, mediana, moda Quando a Mediana é melhor do que a média para representar o centro de um conjunto de dados? Agora vamos calcular a média e a mediana desses vetores. ```r vetor1<- c(1,2,3,4,5) vetor2<- c(1,2,3,4,50000) mean(vetor1) ``` ``` ## [1] 3 ``` ```r mean(vetor2) ``` ``` ## [1] 10002 ``` ```r median(vetor1) ``` ``` ## [1] 3 ``` ```r median(vetor2) ``` ``` ## [1] 3 ``` --- ## Medida de centro: média, mediana, moda Quando a Mediana é melhor do que a Média para representar o centro de um conjunto de dados? <p> A média e a mediana de uma distribuição razoavelmente simétrica estão bem próximas uma da outra. Se a distribuição for exatamente simétrica, a média e a mediana serão exatamente iguais. Em uma distribuição assimétrica, a média está numa posição mais extrema do que a mediana. A média também é mais sensível aos outliers. --- ## Para calcular os quartis 1. Ordene as observações em ordem crescente e localize a mediana. 2. O **primeiro quartil Q1** é a mediana das observações localizadas a esquerda da mediana 3. O **terceiro quartil Q3** é a mediana das observações localizadas a direita da mediana --- ## O resumo dos cinco números O resumo dos cinco números consiste no menor valor, no primeiro quartil, na mediana, no terceiro quartil e no maior valor. Estes cinco números oferecem uma descrição razoavelmente completa do cento e da dispersão dos dados. No R podemos obter esse resumo com o comando summary( ) ```r summary(vetor1) ``` ``` ## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 1 2 3 3 4 5 ``` ```r summary(vetor2) ``` ``` ## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 1 2 3 10000 4 50000 ``` --- ## O resumo dos cinco números O resumo dos cinco números para a variável HP do banco de dados Mtcars ```r summary(mtcars$hp) ``` ``` ## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 52.0 96.5 123.0 146.7 180.0 335.0 ``` O resumo dos cinco números para a variável MPG do banco de dados Mtcars ```r summary(mtcars$mpg) ``` ``` ## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 10.40 15.42 19.20 20.09 22.80 33.90 ``` O resumo dos cinco números para a variável popdensity do banco de dados Midwest ```r summary(midwest$popdensity) ``` ``` ## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 85.05 622.40 1156.00 3098.00 2330.00 88020.00 ``` --- ## Poderíamos representar graficamente o resumo dos cinco números? --- ## Poderíamos representar graficamente o resumo dos cinco números? ### O BOX PLOT ![](index_files/figure-html/quartil4-1.png)<!-- --> --- background-image: url(http://www.planwallpaper.com/cool-background#static/images/cool-background.jpg) background-position: 50% 50% class: center, bottom, inverse ## O Box-Plot e a Amplitude interquartil --- ### O BOX PLOT O Box-Plot é o gráfico do resumo dos cinco números. 1. A caixa central abarca os quartis Q1 e Q3. 2. Uma linha central marca a mediana. 3. Linhas se estendem da caixa até o menor e o maior valor --- ### O BOX PLOT A Amplitude interquartil AIQ é a distância entre o primeiro e o terceiro quartil ![](index_files/figure-html/quartil5-1.png)<!-- --> --- ### O BOX PLOT A Amplitude interquartil - AIQ é a distância entre o primeiro e o terceiro quartil. ``` ``` `$$AIQ=Q3-Q1$$` ### A Regra do 1,5*AIQ Uma observação é um *outlier* se ela for maior que 1,5*AIQ acima do terceiro quartil (ou menor que o primeiro quartil). No caso do HP: ``` ``` $$ Q3+1,5*AIQ = 180+1,5*(180-96,5) = 180 + 125.25 = 305,5 $$ <br> [Fonte](http://www.purplemath.com/modules/boxwhisk3.htm) --- background-image: url(http://www.planwallpaper.com/cool-background#static/images/cool-background.jpg) background-position: 50% 50% class: center, bottom, inverse ## Medidas de dispersão: Variância e Desvio Padrão --- ## Medidas de dispersão: Variância e Desvio Padrão Para mostrar a variância e o Desvio Padrão, vamos criar quatro conjuntos de dados hipotéticos ```r conjunto1<-c(4,4,4,10,16,16,16) conjunto2<-c(4,6,8,10,12,14,16) conjunto3<-c(7,8,9,10,11,12,13) conjunto4<-c(10,10,10,10,10,10,10) ``` --- ## Medidas de dispersão: Variância e Desvio Padrão ```r conjunto1<-c(4,4,4,10,16,16,16) conjunto2<-c(4,6,8,10,12,14,16) conjunto3<-c(7,8,9,10,11,12,13) conjunto4<-c(10,10,10,10,10,10,10) ``` Vamos agora calcular a média desses conjuntos de dados ```r mean(conjunto1) ``` ``` ## [1] 10 ``` ```r mean(conjunto2) ``` ``` ## [1] 10 ``` ```r mean(conjunto3) ``` ``` ## [1] 10 ``` ```r mean(conjunto4) ``` ``` ## [1] 10 ``` --- ## Todos os conjuntos tem a mesma média (mesma medida central). ## Eles são a iguais? Qual a diferença entre eles? --- ## Medidas de dispersão: Variância e Desvio Padrão Vamos olhar esses conjuntos graficamente. Para isso, vou construir um eixo auxiliar. ```r eixo1<-c(1,1,1,1,1,1,1) eixo2<-c(2,2,2,2,2,2,2) eixo3<-c(3,3,3,3,3,3,3) eixo4<-c(4,4,4,4,4,4,4) plot(conjunto1,eixo1, col="red",ylim=c(0,5),pch=16, main = "Quatro conjuntos de dados",ylab="conjuntos", xlab="valores") points(conjunto2,eixo2, col="blue",pch=16) points(conjunto3,eixo3, col="green",pch=16) points(conjunto4,eixo4, col="black",pch=16) ``` --- ## Medidas de dispersão: Variância e Desvio Padrão ![](index_files/figure-html/variancia5-1.png)<!-- --> --- ## Medidas de dispersão: Variância e Desvio Padrão * Os conjuntos de dados são diferentes. * A dispersão dos pontos é diferente em cada conjunto * O conjunto 2 tem um espalhamento maior que o conjunto 3. * O conjunto 1 é aquele em que há maior dispersão em torno da média --- ## Medidas de dispersão: Variância e Desvio Padrão A medida para mensurar a dispersão dos dados é chamada de variância. ``` ``` `$$S^2 = \frac{\sum_{i=1}^{n}(x_i - \bar{X})^2} {n-1}$$` --- ## Medidas de dispersão: Variância e Desvio Padrão O Desvio padrão é a raiz quadrada da Variância, ou seja: `$$S = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{X})^2} {n-1}}$$` Ou simplesmente: `$$S = \sqrt{S^2}$$` --- ## Medidas de dispersão: Variância e Desvio Padrão Para fazer o desvio padrão no R você precisa escrever sd(nome do conjunto) sd = Standard Deviation (Desvio Padrão em inglês) ```r sd(conjunto1) ``` ``` ## [1] 6 ``` ```r sd(conjunto2) ``` ``` ## [1] 4.320494 ``` ```r sd(conjunto3) ``` ``` ## [1] 2.160247 ``` ```r sd(conjunto4) ``` ``` ## [1] 0 ``` --- `\begin{equation} f(x) = \frac{1}{2\pi\sigma^{2}} e^{-\frac{1}{2 \sigma^{2}} (x - \mu)^{2}} \end{equation}` ---