O Diagrama de dispersão é um gráfico onde pontos no espaço cartesiano (X,Y) são usados para representar simultaneamente os valores de duas variáveis quantitativas medidas em cada elemento do conjunto de dados.
x <- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10) y <- c(100, 200,300,400,500,600, 700, 800, 900, 1000) par(mfrow=c(1,2))plot(x,y, col = "red", pch=21,lwd = 10) y <- c(210, 50,280,400,590,540, 730, 770, 800, 1100)plot(x,y, col = "blue",pch=21, lwd = 10)
par(mfrow=c(1,1))
idade = c(56, 30, 40, 32, 39, 23, 17, 20, 28, 16)qtdmiojo = c(17, 29, 27, 35, 27, 56, 58, 54, 50, 38)datacor = data.frame(qtdmiojo,idade)datacor
## qtdmiojo idade## 1 17 56## 2 29 30## 3 27 40## 4 35 32## 5 27 39## 6 56 23## 7 58 17## 8 54 20## 9 50 28## 10 38 16
Este diagrama de dispersão tem um padrão linear geral (reta), mas a relação é negativa.
Essa padrão linear é facil de ver.
#Outro exemplo: pena de morte e abortopenademorte <- c(7,7,3,0,0,10,5,7,0,10,1,8,1,9,8,8,4,10,10,9)aborto <- c(1,2,7,7,9, 3,9,5,8,4,10,3,9,2,2,6,8,6,6,8)plot(penademorte,aborto,col = "darkblue",pch=21)abline(lsfit(penademorte,aborto),col="darkred")
Quais variáveis têm padrão linear positivo? quais têm padrão linear negativo? Quais não tem um padrão (padrão nulo)?
Correlação...
A Correlação mede a direção (positivas ou negativas) e a intensidade (força) da relação linear entre duas variáveis quantitativas (relacionamento entre duas variáveis). Costuma-se representar a correlação pela letra r.
A correlação não faz distinção entre variável explicativa e variável resposta Não faz diferença alguma qual variável você chama de x e qual você chama de y, ao calcular a correlação.
r positivo indica uma associação positiva entre as variáveis, e r negativo indica uma associação negativa.
A correlação é sempre um número entre -1 e 1. Valores próximos de zero indicam uma relação linear muito fraca. A intensidade da relação linear cresce, à medida que r se afasta de zero em direção a -1 ou 1. Os valores de r próximos de -1 ou 1 indicam que os pontos num diagrama de dispersão caem próximos de uma reta. Os valores extremos r= -1 e r= 1 ocorrem apenas no caso de relação linear perfeita , quando os pontos caem exatamente sobre a reta.
Mede a intensidade e a direção da relação entre duas variáveis contínuas
Correlação de Pearson para variáveis continuas
Correlação de Spearman para variáveis ordinais
-0,2 < r < 0 baixa ou nenhuma associação
-0,7 < r < -0,2 grau fraco/moderado de associação
< -0,7 grau excelente de associação
0 < r < 0,2 baixa ou nenhuma associação (ou -0,2 < r < 0)
0,2 < r < 0,7 grau fraco/moderado de associação (ou -0,7 < r < -0,2)
r > 0,7 grau excelente de associação (ou <-0,7)
r=COV(x,y)SxSy Onde:
COV=Σ(X−¯X)(Y−¯Y)N−1
r=n∗Σ(X∗Y)−Σ(X)∗Σ(Y)√n∗Σ(X)2−(Σ(X))2√n∗Σ(Y)2−(Σ(Y))2
Passo 1
Fazer cálculos intermediários
Passo 2
Encontrar o somatório
Passo 3
Aplicar a fórmula
r=n⋅Σ(X⋅Y)−Σ(X)∗Σ(Y)√n⋅Σ(X)2−(Σ(X))2√n⋅Σ(Y)2−(Σ(Y))2
r=8(447)−40⋅80√8⋅228−(40)2√8⋅(882)2−((80))2
r=3576−3200√1824−1600√7056−6400)
r=376383,33=0,981
dados <-data.frame(x=c(2,3,4,5,5,6,7,8), y=c(4,7,9,10,11,11,13,15))cor(dados$x,dados$y)
cor(datacor$idade, datacor$qtdmiojo)
## [1] -0.8262782
plot(datacor$idade, datacor$qtdmiojo)abline(lsfit(datacor$idade, datacor$qtdmiojo),col="darkred")
Correlação entre as variáveis Kmporlitro e HP e as variáveis Kmporlitro e Peso
cor(CARROS$Kmporlitro,CARROS$HP)
## [1] -0.7761684
cor(CARROS$Kmporlitro,CARROS$Peso)
## [1] -0.8676594
var1 = c(10, 9, 5, 6, 7)var2 = c(3, 6, 10, 5, 4)cor(var1, var2, method="spearman")
## [1] -0.7
animais = c(10, 13, 14, 11, 10, 17, 10, 7, 12, 13)frutas = c(11, 11, 14, 9, 7, 14, 9, 4, 13, 12)fas = c(3, 20, 27, 26, 16, 41, 34, 13, 31, 38)dados.fv = data.frame(animais, frutas, fas)#cor(dados.fv) pairs(dados.fv)
cor(CARROS[,c("Preco","RPM","HP","Kmporlitro","Amperagem_circ_eletrico","Peso")])
## Preco RPM HP Kmporlitro## Preco 1.0000000 -0.43369788 0.7909486 -0.8475514## RPM -0.4336979 1.00000000 -0.7082234 0.4186840## HP 0.7909486 -0.70822339 1.0000000 -0.7761684## Kmporlitro -0.8475514 0.41868403 -0.7761684 1.0000000## Amperagem_circ_eletrico -0.7102139 0.09120476 -0.4487591 0.6811719## Peso 0.8879799 -0.17471588 0.6587479 -0.8676594## Amperagem_circ_eletrico Peso## Preco -0.71021393 0.8879799## RPM 0.09120476 -0.1747159## HP -0.44875912 0.6587479## Kmporlitro 0.68117191 -0.8676594## Amperagem_circ_eletrico 1.00000000 -0.7124406## Peso -0.71244065 1.0000000
library(corrplot)M <- cor(CARROS[,c("Preco","RPM","HP","Kmporlitro","Peso")])corrplot(M, method="circle")
corrplot(M, method="square")
corrplot(M, method="number")
corrplot(M, method="color")
corrplot(M, method="pie")
corrplot(M, order="hclust", addrect=2)
col3 <- colorRampPalette(c("red", "white", "blue")) corrplot(M, order="hclust", addrect=2, col=col3(20))
wb <- c("white","black")corrplot(M, order="hclust", addrect=2, col=wb, bg="gold2")
corrplot.mixed(M)
corrplot(M,addCoef.col=TRUE,number.cex=0.7)
check point
até aqui, tudo ok?
Y=β0+β1x+ϵ
Onde:
Y = é o valor a ser predito
β0 = é o intercepto (valor quando x = 0)
β1 = é a inclinação da reta de regressão
x = é o valor da variável preditora (preditor linear)
ϵ é o erro
y = c(110, 120, 90, 70, 50, 80, 40, 40, 50, 30)xx = 1:10modelo = lm(y ~ xx)modelo
## ## Call:## lm(formula = y ~ xx)## ## Coefficients:## (Intercept) xx ## 118.667 -9.212
plot(y ~ xx)abline(modelo, col=2, lty=2, lwd=2)legend("top", legend=c("valores observados", "valores ajustados"), lty=c(NA,2), col=c(1,2), lwd=1:2, bty="n", pch=c(1,NA))
renda = c(1750, 1680, 1700, 1710, 1690, 1650, 1650, 1600, 1800, 1860)anosdeestudo = c(8, 7, 6, 6, 6, 5, 5, 5, 8, 9)modelo2 = lm(renda ~ anosdeestudo)
plot(renda ~ anosdeestudo)abline(modelo2, col=2, lty=2, lwd=2)legend("topleft", legend=c("valores observados", "valores ajustados"), lty=c(NA,2), col=c(1,2), lwd=1:2, bty="n", pch=c(1,NA))
modelo2
## ## Call:## lm(formula = renda ~ anosdeestudo)## ## Coefficients:## (Intercept) anosdeestudo ## 1387.51 49.46
data("mtcars")modelo3 = lm(mpg ~ wt, data=mtcars)modelo3
## ## Call:## lm(formula = mpg ~ wt, data = mtcars)## ## Coefficients:## (Intercept) wt ## 37.285 -5.344
plot(mtcars$mpg ~ mtcars$wt)abline(modelo3, col=2, lty=2, lwd=2)legend("topright", legend=c("valores observados", "valores ajustados"), lty=c(NA,2), col=c(1,2), lwd=1:2, bty="n", pch=c(1,NA))
modelo4 = lm(mpg ~ wt+cyl+disp+hp, data=mtcars)modelo4
## ## Call:## lm(formula = mpg ~ wt + cyl + disp + hp, data = mtcars)## ## Coefficients:## (Intercept) wt cyl disp hp ## 40.82854 -3.85390 -1.29332 0.01160 -0.02054
par(mfrow = c(2, 2))plot(mtcars$mpg ~ mtcars$wt)plot(mtcars$mpg ~ mtcars$cyl)plot(mtcars$mpg ~ mtcars$disp)plot(mtcars$mpg ~ mtcars$hp)
check point
até aqui, tudo ok?
O Diagrama de dispersão é um gráfico onde pontos no espaço cartesiano (X,Y) são usados para representar simultaneamente os valores de duas variáveis quantitativas medidas em cada elemento do conjunto de dados.
Keyboard shortcuts
↑, ←, Pg Up, k | Go to previous slide |
↓, →, Pg Dn, Space, j | Go to next slide |
Home | Go to first slide |
End | Go to last slide |
Number + Return | Go to specific slide |
b / m / f | Toggle blackout / mirrored / fullscreen mode |
c | Clone slideshow |
p | Toggle presenter mode |
t | Restart the presentation timer |
?, h | Toggle this help |
Esc | Back to slideshow |