Processing math: 100%
+ - 0:00:00
Notes for current slide
Notes for next slide

👨‍🏫 Correlação e Regressão


🔗 Aula Correlação

Steven Dutt Ross

UNIRIO

O Diagrama de dispersão

O Diagrama de dispersão é um gráfico onde pontos no espaço cartesiano (X,Y) são usados para representar simultaneamente os valores de duas variáveis quantitativas medidas em cada elemento do conjunto de dados.

correlacao

x <- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
y <- c(100, 200,300,400,500,600, 700, 800, 900, 1000)
par(mfrow=c(1,2))
plot(x,y, col = "red", pch=21,lwd = 10)
y <- c(210, 50,280,400,590,540, 730, 770, 800, 1100)
plot(x,y, col = "blue",pch=21, lwd = 10)

par(mfrow=c(1,1))
idade = c(56, 30, 40, 32, 39, 23, 17, 20, 28, 16)
qtdmiojo = c(17, 29, 27, 35, 27, 56, 58, 54, 50, 38)
datacor = data.frame(qtdmiojo,idade)
datacor
## qtdmiojo idade
## 1 17 56
## 2 29 30
## 3 27 40
## 4 35 32
## 5 27 39
## 6 56 23
## 7 58 17
## 8 54 20
## 9 50 28
## 10 38 16

Este diagrama de dispersão tem um padrão linear geral (reta), mas a relação é negativa.

Essa padrão linear é facil de ver.

#Outro exemplo: pena de morte e aborto
penademorte <- c(7,7,3,0,0,10,5,7,0,10,1,8,1,9,8,8,4,10,10,9)
aborto <- c(1,2,7,7,9, 3,9,5,8,4,10,3,9,2,2,6,8,6,6,8)
plot(penademorte,aborto,col = "darkblue",pch=21)
abline(lsfit(penademorte,aborto),col="darkred")

Quais variáveis têm padrão linear positivo? quais têm padrão linear negativo? Quais não tem um padrão (padrão nulo)?

Correlação...

O que é correlação?

A Correlação mede a direção (positivas ou negativas) e a intensidade (força) da relação linear entre duas variáveis quantitativas (relacionamento entre duas variáveis). Costuma-se representar a correlação pela letra r.

Fatos sobre a correlação

A correlação não faz distinção entre variável explicativa e variável resposta Não faz diferença alguma qual variável você chama de x e qual você chama de y, ao calcular a correlação.

r positivo indica uma associação positiva entre as variáveis, e r negativo indica uma associação negativa.

A correlação é sempre um número entre -1 e 1. Valores próximos de zero indicam uma relação linear muito fraca. A intensidade da relação linear cresce, à medida que r se afasta de zero em direção a -1 ou 1. Os valores de r próximos de -1 ou 1 indicam que os pontos num diagrama de dispersão caem próximos de uma reta. Os valores extremos r= -1 e r= 1 ocorrem apenas no caso de relação linear perfeita , quando os pontos caem exatamente sobre a reta.

Coeficiente de correlação produto-momento de Pearson (r)

Mede a intensidade e a direção da relação entre duas variáveis contínuas

Tipos de correlações

Correlação de Pearson para variáveis continuas

Correlação de Spearman para variáveis ordinais

Para saber mais clique aqui

Fonte

Interpretação do r - Valores de referência

Negativo

-0,2 < r < 0 baixa ou nenhuma associação

-0,7 < r < -0,2 grau fraco/moderado de associação

< -0,7 grau excelente de associação

Positivo

0 < r < 0,2 baixa ou nenhuma associação (ou -0,2 < r < 0)

0,2 < r < 0,7 grau fraco/moderado de associação (ou -0,7 < r < -0,2)

r > 0,7 grau excelente de associação (ou <-0,7)

correlacao

Fórmula da correlação de Pearson

r=COV(x,y)SxSy Onde:

  • COV = covariância
  • S = Desvio-padrão
  • Covariância é o número que reflete o grau em que duas variáveis variam juntas.

COV=Σ(X¯X)(Y¯Y)N1

Fórmula alternativa

r=nΣ(XY)Σ(X)Σ(Y)nΣ(X)2(Σ(X))2nΣ(Y)2(Σ(Y))2

Como aplicar a Fórmula em um conjunto de dados?

Banco de dados

para o cálculo da correlação

Passo 1

Fazer cálculos intermediários

Variáveis originais e cálculos intermediários

Passo 2

Encontrar o somatório

Passo 3

Aplicar a fórmula

r=nΣ(XY)Σ(X)Σ(Y)nΣ(X)2(Σ(X))2nΣ(Y)2(Σ(Y))2

r=8(447)40808228(40)28(882)2((80))2

r=357632001824160070566400)

r=376383,33=0,981

dados <-data.frame(x=c(2,3,4,5,5,6,7,8),
y=c(4,7,9,10,11,11,13,15))
cor(dados$x,dados$y)

Correlação entre idade e miojo

cor(datacor$idade, datacor$qtdmiojo)
## [1] -0.8262782
plot(datacor$idade, datacor$qtdmiojo)
abline(lsfit(datacor$idade, datacor$qtdmiojo),col="darkred")

Correlação de Pearson

Correlação entre as variáveis Kmporlitro e HP e as variáveis Kmporlitro e Peso

cor(CARROS$Kmporlitro,CARROS$HP)
## [1] -0.7761684
cor(CARROS$Kmporlitro,CARROS$Peso)
## [1] -0.8676594

Correlação de Spearman

var1 = c(10, 9, 5, 6, 7)
var2 = c(3, 6, 10, 5, 4)
cor(var1, var2, method="spearman")
## [1] -0.7

Na prática, fazemos uma matriz com todas as correlações.

animais = c(10, 13, 14, 11, 10, 17, 10, 7, 12, 13)
frutas = c(11, 11, 14, 9, 7, 14, 9, 4, 13, 12)
fas = c(3, 20, 27, 26, 16, 41, 34, 13, 31, 38)
dados.fv = data.frame(animais, frutas, fas)
#cor(dados.fv)
pairs(dados.fv)

Na prática, fazemos uma matriz com todas as correlações.

cor(CARROS[,c("Preco","RPM","HP","Kmporlitro","Amperagem_circ_eletrico","Peso")])
## Preco RPM HP Kmporlitro
## Preco 1.0000000 -0.43369788 0.7909486 -0.8475514
## RPM -0.4336979 1.00000000 -0.7082234 0.4186840
## HP 0.7909486 -0.70822339 1.0000000 -0.7761684
## Kmporlitro -0.8475514 0.41868403 -0.7761684 1.0000000
## Amperagem_circ_eletrico -0.7102139 0.09120476 -0.4487591 0.6811719
## Peso 0.8879799 -0.17471588 0.6587479 -0.8676594
## Amperagem_circ_eletrico Peso
## Preco -0.71021393 0.8879799
## RPM 0.09120476 -0.1747159
## HP -0.44875912 0.6587479
## Kmporlitro 0.68117191 -0.8676594
## Amperagem_circ_eletrico 1.00000000 -0.7124406
## Peso -0.71244065 1.0000000

No entanto, hoje em dia podemos construir uma visualização de dados dessa matriz.

Visualização da Matriz de Correlação

Visualização da Matriz de Correlação

library(corrplot)
M <- cor(CARROS[,c("Preco","RPM","HP","Kmporlitro","Peso")])
corrplot(M, method="circle")

Visualização da Matriz de Correlação

corrplot(M, method="square")

Visualização da Matriz de Correlação

corrplot(M, method="number")

Visualização da Matriz de Correlação

corrplot(M, method="color")

Visualização da Matriz de Correlação

corrplot(M, method="pie")

Visualização da Matriz de Correlação:Criação de Grupos

corrplot(M, order="hclust", addrect=2)

Visualização da Matriz de Correlação: Democratas e Republicanos

col3 <- colorRampPalette(c("red", "white", "blue"))
corrplot(M, order="hclust", addrect=2, col=col3(20))

Matriz de correlação Pós-Moderna

wb <- c("white","black")
corrplot(M, order="hclust", addrect=2, col=wb, bg="gold2")

Matriz de correlação Analítica (Versão 1)

corrplot.mixed(M)

Matriz de correlação Analítica (Versão 2)

corrplot(M,addCoef.col=TRUE,number.cex=0.7)

check point

até aqui, tudo ok?

Regressão linear

Regressão linear: objetivos

  • Predizer observações futuras
  • Avaliar o efeito as relações da variável independente (x) sobre uma variável dependente (y)
  • Descrever a estrutura dos dados

Modelo de Regressão Linear

Y=β0+β1x+ϵ

Onde:
Y = é o valor a ser predito
β0 = é o intercepto (valor quando x = 0)
β1 = é a inclinação da reta de regressão
x = é o valor da variável preditora (preditor linear)
ϵ é o erro

Modelo de regressão: exemplo 1

y = c(110, 120, 90, 70, 50, 80, 40, 40, 50, 30)
xx = 1:10
modelo = lm(y ~ xx)
modelo
##
## Call:
## lm(formula = y ~ xx)
##
## Coefficients:
## (Intercept) xx
## 118.667 -9.212

Modelo de regressão: exemplo 1

plot(y ~ xx)
abline(modelo, col=2, lty=2, lwd=2)
legend("top", legend=c("valores observados", "valores ajustados"), lty=c(NA,2), col=c(1,2), lwd=1:2, bty="n", pch=c(1,NA))

Modelo de regressão: exemplo 2

renda = c(1750, 1680, 1700, 1710, 1690, 1650, 1650, 1600, 1800, 1860)
anosdeestudo = c(8, 7, 6, 6, 6, 5, 5, 5, 8, 9)
modelo2 = lm(renda ~ anosdeestudo)
plot(renda ~ anosdeestudo)
abline(modelo2, col=2, lty=2, lwd=2)
legend("topleft", legend=c("valores observados", "valores ajustados"), lty=c(NA,2), col=c(1,2), lwd=1:2, bty="n", pch=c(1,NA))

modelo2
##
## Call:
## lm(formula = renda ~ anosdeestudo)
##
## Coefficients:
## (Intercept) anosdeestudo
## 1387.51 49.46

Modelo de regressão: exemplo 3

data("mtcars")
modelo3 = lm(mpg ~ wt, data=mtcars)
modelo3
##
## Call:
## lm(formula = mpg ~ wt, data = mtcars)
##
## Coefficients:
## (Intercept) wt
## 37.285 -5.344
plot(mtcars$mpg ~ mtcars$wt)
abline(modelo3, col=2, lty=2, lwd=2)
legend("topright", legend=c("valores observados", "valores ajustados"), lty=c(NA,2), col=c(1,2), lwd=1:2, bty="n", pch=c(1,NA))

Modelo de regressão: exemplo 4

modelo4 = lm(mpg ~ wt+cyl+disp+hp, data=mtcars)
modelo4
##
## Call:
## lm(formula = mpg ~ wt + cyl + disp + hp, data = mtcars)
##
## Coefficients:
## (Intercept) wt cyl disp hp
## 40.82854 -3.85390 -1.29332 0.01160 -0.02054
par(mfrow = c(2, 2))
plot(mtcars$mpg ~ mtcars$wt)
plot(mtcars$mpg ~ mtcars$cyl)
plot(mtcars$mpg ~ mtcars$disp)
plot(mtcars$mpg ~ mtcars$hp)

check point

até aqui, tudo ok?

O Diagrama de dispersão

O Diagrama de dispersão é um gráfico onde pontos no espaço cartesiano (X,Y) são usados para representar simultaneamente os valores de duas variáveis quantitativas medidas em cada elemento do conjunto de dados.

Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow