> HATCO <-
+ readXL("C:/Users/Xavier/Desktop/Glauco/Administração Pública/2o Período/Estatística/Base_de_dados-master/HATCO.xlsx",
+ rownames=FALSE, header=TRUE, na="", sheet="HATCO", stringsAsFactors=TRUE)
> HATCO <- within(HATCO, {
+ Acesso.à.Internet <- factor(Acesso.à.Internet, labels=c('Eventual','Frequente'))
+ })
> HATCO <- within(HATCO, {
+ Faixa.de.Idade <- factor(Faixa.de.Idade, labels=c('Jovem','Adulto'))
+ })
> HATCO <- within(HATCO, {
+ Sexo <- factor(Sexo, labels=c('Masculino','Feminino'))
+ })
> HATCO <- within(HATCO, {
+ Local.de.Compra <- factor(Local.de.Compra, labels=c('Capital','Reg. Metrop.','Interior'))
+ })
> HATCO <- within(HATCO, {
+ Tam..da.Empresa <- factor(Tam..da.Empresa, labels=c('Pequena','Grande'))
+ })
A HATCO é uma empresa de vendas de celulares pela internet. Foi pedido uma análise sobre o consumidor com o objetivo de tornar a estratégia de marketing do próximo ano o mais eficiente possível. Para isso, será preciso analisar os dados relatados em um questionário aplicado ao consumidor. Nele, poderemos avaliar estatisticamente onde a empresa acertou e o que precisa melhorar. O gerente pediu ênfase na fidelização e na satisfação do consumidor. Portanto, os objetivos são:
Para esta análise vamos utilizar o programa R, buscando relacionar variáveis quantitativas com qualitativas, em gráficos de histograma e boxplot, bem como analisaremos algumas correlações entre variáveis quantitativas, usando diagramas de dispersão.
Vamos, a princípio, analisar quem são nossos consumidores e de que forma somos vistos por eles. Para isso, vamos utilizar gráficos de pizza.
> with(HATCO, pie(table(Acesso.à.Internet), labels=levels(Acesso.à.Internet),
+ xlab="Quanto nossos consumidores utilizam internet?", ylab="", main="Acesso à Internet",
+ col=c("olivedrab3","royalblue1")))
Por esse gráfico percebemos que há um equilíbrio entre os que usam muito e pouco, com uma leve predileção por usar a internet com mais freqüência.
> with(HATCO, pie(table(Faixa.de.Idade), labels=levels(Faixa.de.Idade),
+ xlab="Que faixa de idade nossos consumidores tem?", ylab="",
+ main="Classificação Etária do Consumidor", col=c("olivedrab3","royalblue1")))
Percebemos aí um equilíbrio completo, com 50% de jovens e 50% de adultos.
> with(HATCO, pie(table(Local.de.Compra), labels=levels(Local.de.Compra),
+ xlab="De onde são nossos compradores?", ylab="", main="Local de Compras", col=c("olivedrab3","royalblue1","salmon1")))
Novamente vemos um grande equilíbrio, com as vendas divididas em aproximadamente 1/3 para cada área de venda.
> with(HATCO, pie(table(Sexo), labels=levels(Sexo),
+ xlab="Proporção de vendas entre homens e mulheres", ylab="", main="Sexo", col=c("olivedrab3","royalblue1")))
Mais um gráfico equilibrado, mostrando que temos quantidades iguais de consumidores masculinos e femininos.
> with(HATCO, pie(table(Tam..da.Empresa), labels=levels(Tam..da.Empresa),
+ xlab="Como o consumidor vê a HATCO perante à concorrência?", ylab="", main="Tamanho da Empresa",
+ col=c("olivedrab3","royalblue1")))
Vemos aí que a maioria (60%) vê a HATCO como uma empresa menor que as concorrentes. 40% nos vê maiores.
Para fecharmos a análise inicial, utilizaremos um histograma que mostra como o consumidor vê a força da nossa empresa.
> with(HATCO, Hist(Img.Força.de.Vendas, scale="frequency", breaks="Sturges", col=c("lightblue1","lightblue3"),
+ xlab="Nota", ylab="Nº de Pessoas", main="Imagem da força de vendas"))
Por esse gráfico podemos observar que não somos vistos como uma empresa forte. Mais da metade do total de pessoas nos atribuiu notas menores que 3 (numa escala decimal de 1,0 a 5,0). Mais de 50% nos avaliou entre 2,0 e 3,0, e cerca de 15% nos deu notas abaixo de 2,0. Cabe então uma investigação para compreender o porquê de não sermos vistos pelos consumidores como uma empresa forte.
Um dado que pode justificar e ajudar a explicar essa visão da empresa é o grau de fidelização que ela consegue atingir nos consumidores. Para isso, vamos usar o boxplot para estudar a variável Nível de Uso, que diz percentualmente quantos celulares do consumidor foram comprados na nossa empresa.
> Boxplot( ~ Nível.de.Uso, data=HATCO, id.method="y", col="navajowhite1", ylab="Percentual", main="Nível de Uso")
Podemos observar que o percentual de celulares que uma pessoa teve e que foram comprados na nossa empresa oscila entre 25% e 65%. O primeiro quartil comprou quase 40% dos celulares em nossa empresa, enquanto que a mediana não chega a 50%, um valor baixo que mostra que metade dos nossos consumidores não teve nem 50% de seus celulares comprados na HATCO. Com um gráfico de pontos, temos outra forma de visualizar esta questão.
> with(HATCO, Dotplot(Nível.de.Uso, bin=FALSE,
+ xlab="Percentual de celulares comprados por alguém na HATCO"))
Por este gráfico, percebemos que a maioria das pessoas teve apenas 51% dos celulares comprados em nossa empresa.
Isso prova que não estamos fidelizando bem o nosso cliente. No entanto, pra encontrarmos uma solução, precisaremos aprofundar a análise da fidelização. Para isso, vamos setorizar a fidelização (variável qualitativa) por faixa de idade, local de compra e acesso à internet (variáveis quantitativas).
> Boxplot(Nível.de.Uso~Faixa.de.Idade, data=HATCO, id.method="y", col=c("navajowhite1","mistyrose2"), xlab="Faixa de Idade",
+ ylab="Nível de uso", main="Fidelização por faixa de idade")
Podemos ver através deste gráfico que estamos fidelizando mais os jovens que os adultos. Apesar de seus mínimos e máximos serem próximos, o terceiro quartil dos adultos é menor que a mediana dos jovens. Percebemos aí que é preciso investir na fidelização dos adultos.
> Boxplot(Nível.de.Uso~Acesso.à.Internet, data=HATCO, id.method="y", col=c("navajowhite1","mistyrose2"), xlab="Acesso à Internet",
+ ylab="Nível de Uso", main="Fidelização por Acesso à Internet")
Neste gráfico observamos que a fidelização tende a ser maior se a pessoa for um usuário assíduo de internet. Isso é coerente inclusive com a proposta da HATCO de vendas pela internet. Se o foco é vender pela internet, ao menos os consumidores mais fiéis a estão a utilizando frequentemente.
> Boxplot(Nível.de.Uso~Local.de.Compra, data=HATCO, id.method="y", col=c("navajowhite1","mistyrose2","lightsteelblue1"), xlab="Local de compra",
+ ylab="Nível de Uso", main="Fidelização por local de compra")
[1] "57"
Talvez aqui resida o nosso dado mais importante até o momento. Percebemos que quanto mais no interior está o nosso cliente, melhor é a sua fidelização. Os consumidores da capital não compraram mais que 50% de seus celulares na HATCO, sendo que 3 / 4 não compraram mais que 40%. Percebemos então que o foco principal do marketing deve ser direcionado à capital. A região metropolitana também precisa de cuidados, já que o terceiro quartil não passa dos 50% de celulares comprados em nossa empresa. Temos nessa região a presença de um outlier, mas que pouco altera no prognóstico geral. Vamos completar essa análise da fidelização contrastando variáveis qualitativas para identificar de que forma elas se correlacionam. Para isso usaremos o gráfico de barras.
> with(HATCO, Barplot(Local.de.Compra, by=Acesso.à.Internet, style="divided", legend.pos="above",
+ xlab="Local de Compra", ylab="Quantidade", main="Acesso à Internet x Local de Compra"))
Esse gráfico é bem ilustrativo e concorda com o que foi mencionado no outro gráfico. Nossa maior taxa de fidelização é no interior, que é justamente onde há acesso mais freqüente à internet. Na região metropolitana temos uma relação equilibrada, enquanto na capital (também onde temos mais problemas com fidelização) temos uma quantidade relativamente baixa de acesso à internet. Isso significa que talvez seja necessário mudar a estratégia de vendas na capital, ou estimulando o uso da internet, ou procurando outras formas de venda que não sejam pela internet, que talvez faça mais sentido.
> with(HATCO, Barplot(Local.de.Compra, by=Faixa.de.Idade, style="divided", legend.pos="above",
+ xlab="Local de Compra", ylab="Quantidade", main="Faixa de Idade x Local de Compra"))
Este gráfico também condiz com o que analisamos acima. Nele vemos que nosso público mais fiel (Jovem) também está mais presente no interior, enquanto que o consumidor adulto, quase inexistente no interior, abunda na capital, onde temos baixa taxa de fidelização. Com esses dois gráficos, é provável que ao cruzarmos as variáveis qualitativas Faixa de Idade e Acesso à Internet tenhamos uma grande quantidade de acesso freqüente jovem. Vamos conferir:
> with(HATCO, Barplot(Acesso.à.Internet, by=Faixa.de.Idade, style="divided", legend.pos="above",
+ xlab="Acesso à Internet", ylab="Quantidade", main="Faixa de Idade x Acesso à Internet"))
Confirmado que temos entre os jovens consumidores os usuários mais frequentes de internet. Completando essa análise de fidelização, percebemos pelo gráfico 2.7 que temos duas frentes que se opõem e que precisam de atenção. Apesar de termos no interior o maior grau de fidelização, percebemos também que temos poucos clientes adultos. O inverso acontece na capital. Ao passo que temos consumidores menos fiéis, temos também bastante mais adultos que jovens como clientes.
Tendo analisado a fidelização, vamos agora observar o grau de satisfação dos clientes e suas razões para tanto. A variável que vamos estudar é quantitativa, de nome Nível de Satisfação. Vamos iniciar usando um histograma para captar a satisfação geral de nossos consumidores.
> with(HATCO, Hist(Nível.de.Satisf., scale="frequency", breaks="Sturges", col=c("lightblue1","lightblue3"),
+ xlab="Nota", ylab="Nº de Pessoas", main="Nível de Satisfação dos Consumidores"))
Assumindo que a variação de notas vá de 1 a 10, percebemos um gráfico quase simétrico em que a média se aproxima da nota 5. Para encontrar a média geral exata, vamos utilizar o comando estatístico de resumos numéricos do Nível de Satisfação.
Tabela 1 – Estatística de Resumo Numérico (Nível de Satisfação)
> numSummary(HATCO[,"Nível.de.Satisf.", drop=FALSE], statistics=c("mean", "sd", "IQR", "quantiles"),
+ quantiles=c(0,.25,.5,.75,1))
mean sd IQR 0% 25% 50% 75% 100% n
4.771 0.8555576 1.3 3.2 4.1 4.85 5.4 6.8 100
Por essa tabela vemos que a média geral é 4,771. Numa escala de 1 a 10, é um valor baixo que precisa ser investigado. Para entender esses números, vamos analisar rapidamente os dados gerais de Velocidade de Entrega, Qualidade do Produto, Avaliação da Embalagem e Preço do Produto.
> with(HATCO, Hist(Aval..Da.Embalagem, scale="frequency", breaks="Sturges", col=c("olivedrab4","olivedrab3"),
+ xlab="Nota", ylab="Nº de Pessoas", main="Avaliação da Embalagem"))
Percebemos aí que os valores se equilibram perto da nota 3, numa escala provável de 0 a 6, que é um valor mediano.
> with(HATCO, Hist(Veloc..Entrega, scale="frequency", breaks="Sturges", col=c("mediumpurple3","mediumpurple1"), xlab="Nota",
+ ylab="Nº de Pessoas", main="Velocidade de Entrega"))
Numa provável escala de 0 a 10, temos uma predominância de notas entre 2 e 6, sendo metade de todas as notas entre 2 e 4. Valores também baixos para entrega.
> with(HATCO, Hist(Qual..Do.Produto, scale="frequency", breaks="Sturges", col=c("goldenrod3","goldenrod1"),
+ xlab="Nota", ylab="Nº de Pessoas", main="Qualidade do Produto"))
Este gráfico revela que, apesar de não termos boas notas nos quesitos anteriores, a qualidade do produto está agradando o cliente. Numa escala de 0 a 10, temos a grande maioria de notas entre 5 e 10, sendo mais de 60% acima de 7.
> with(HATCO, Hist(Preço.Prod., scale="frequency", breaks="Sturges", col=c("darkseagreen4","darkseagreen3"), xlab="Nota",
+ ylab="Nº de Pessoas", main="Preço do produto"))
Por fim, temos o gráfico relacionado à avaliação do preço pelo consumidor. Podemos ver um gráfico assimétrico, onde numa escala de 0 a 6, 0 é mais barato e 6 mais caro. Assim, percebemos que a maioria dos nossos consumidores tende a achar o nosso preço barato, o que é bom na competição com a concorrência.
Sabemos até o momento que nossa fidelização é mais bem feita no interior que na capital ou na região metropolitana. Para encontrarmos a solução precisamos aprofundar ainda mais a análise sobre satisfação, separá-la nas variáveis qualitativas para perceber se a má avaliação da satisfação tem relação com a baixa fidelização. Para isso vamos usar o boxplot.
> Boxplot(Nível.de.Satisf.~Local.de.Compra, data=HATCO, id.method="y", col=c("navajowhite1","mistyrose2","lightsteelblue1"), xlab="Local de Compra",
+ ylab="Nível de Satisfação", main="Nível de Satisfação por Local de Compra")
[1] "7"
Neste gráfico vemos que a satisfação na capital é bastante inferior à das outras zonas. A nota máxima em satisfação na cidade é 5 (se desconsiderarmos um outlier que avaliou em 5,88), e a mediana é menor que 4. A região metropolitana apresenta uma baixa amplitude, com concentração de notas aproximadamente entre 4,2 e 6,2. O interior apresenta os melhores números, com a mediana próxima dos 5.5, o que significa que 50% das notas são maiores que o valor da mediana.
> Boxplot(Nível.de.Satisf.~Faixa.de.Idade, data=HATCO, id.method="y", col=c("navajowhite1","mistyrose2"), xlab="Faixa de Idade",
+ ylab="Nível de Satisfação", main="Nível de Satisfação por Faixa de Idade")
Este boxplot nos mostra que nossos consumidores mais satisfeitos são os jovens. Podemos ver o 1º quartil dos clientes jovens em 4.8, enquanto que a mediana dos adultos não passa dos 4.5.
> Boxplot(Nível.de.Satisf.~Acesso.à.Internet, data=HATCO, id.method="y", col=c("navajowhite1","mistyrose2"), xlab="Faixa de Idade",
+ ylab="Nível de Satisfação", main="Nível de Satisfação por Acesso à Internet")
Analisando rapidamente este gráfico, vemos uma satisfação maior nos consumidores que são usuários freqüentes de internet. Comparando as medianas, vemos um valor de aproximadamente 4,1 nos usuários eventuais contra mais de 5 dos usuários freqüentes.
Vamos agora investigar se há relação entre o nível de satisfação com outras variáveis quantitativas como Velocidade de Entrega, Qualidade do Produto, Avaliação da Embalagem e o Preço do Produto. Para isso, utilizaremos tanto o diagrama de dispersão quanto o teste de correlação.
> scatterplot(Veloc..Entrega~Nível.de.Satisf., reg.line=lm, smooth=FALSE, spread=FALSE,
+ boxplots=FALSE, span=0.5, ellipse=FALSE, levels=c(.5, .9), xlab="Nível de Satisfação",
+ ylab="Velocidade de Entrega", main="Relação entre Satisfação e Velocidade de Entrega", data=HATCO)
Neste gráfico vemos uma forte relação entre as variáveis. Quanto maior a velocidade de entrega, maior a satisfação do consumidor. O teste de correlação confirma essa afirmação com um valor de 0,6506323.
> with(HATCO, cor.test(Nível.de.Satisf., Veloc..Entrega, alternative="two.sided", method="pearson"))
Pearson's product-moment correlation
data: Nível.de.Satisf. and Veloc..Entrega
t = 8.4817, df = 98, p-value = 2.354e-13
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.5207660 0.7510671
sample estimates:
cor
0.6506323
> scatterplot(Qual..Do.Produto~Nível.de.Satisf. | Local.de.Compra, reg.line=lm, smooth=FALSE,
+ spread=FALSE, boxplots=FALSE, span=0.5, ellipse=FALSE, levels=c(.5, .9),
+ xlab="Nível de Satisfação", ylab="Qualidade do Produto",
+ main="Relação entre Satisfação e Qualidade do Produto", by.groups=TRUE,
+ legend.coords="bottomright", data=HATCO)
Esse gráfico foi desmembrado quanto ao local de compra para que pudéssemos perceber um dado curioso. Enquanto na região metropolitana e no interior a relação entre as variáveis é fraca, na capital a relação é inversa. Aparentemente, na capital, quanto maior a qualidade do produto, menor o grau de satisfação. Isso não deve significar que os consumidores da capital não gostem de qualidade, porque pode haver outras variáveis que interfiram no nível de satisfação dos clientes da capital, que é o que vamos investigar.
> scatterplot(Aval..Da.Embalagem~Nível.de.Satisf., reg.line=lm, smooth=FALSE, spread=FALSE,
+ boxplots=FALSE, span=0.5, ellipse=FALSE, levels=c(.5, .9), xlab="Nível de Satisfação",
+ ylab="Avaliação da Embalagem", main="Relação entre Satisfação e Avaliação da Embalagem",
+ data=HATCO)
Percebemos uma relação clara entre a embalagem e a satisfação. Quanto melhor a avaliação, melhor a satisfação. O teste de correlação tem valor de 0,6312329.
> with(HATCO, cor.test(Aval..Da.Embalagem, Nível.de.Satisf., alternative="two.sided",
+ method="pearson"))
Pearson's product-moment correlation
data: Aval..Da.Embalagem and Nível.de.Satisf.
t = 8.0569, df = 98, p-value = 1.918e-12
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.4963557 0.7363538
sample estimates:
cor
0.6312329
> scatterplot(Preço.Prod.~Nível.de.Satisf., reg.line=lm, smooth=FALSE, spread=FALSE, boxplots=FALSE,
+ span=0.5, ellipse=FALSE, levels=c(.5, .9), xlab="Nível de Satisfação", ylab="Preço do Produto",
+ main="Relação entre Satisfação e Preço do Produto", data=HATCO)
Não há, pelo gráfico, relação forte entre o preço do produto e o nível de satisfação. Isso pode indicar que o preço não é um fator que interfira na satisfação com o produto comprado. Para tentar explicar o porquê de na capital termos um produto considerado de qualidade, porém com baixo grau de satisfação, vamos usar a matriz de dispersão com as variáveis Avaliação da Embalagem, Qualidade do Produto e Velocidade de Entrega.
> scatterplotMatrix(~Aval..Da.Embalagem+Qual..Do.Produto+Veloc..Entrega | Local.de.Compra,
+ reg.line=lm, smooth=FALSE, spread=FALSE, span=0.5, ellipse=FALSE, levels=c(.5, .9), id.n=0,
+ diagonal= 'density', by.groups=TRUE, data=HATCO, main="Aval. da Emb. x Qual. do Prod. x Veloc.
+ Entr.")
Através dessa matriz entendemos por que a satisfação diminui na capital. Tanto a avaliação da embalagem quanto a velocidade de entrega são menos bem avaliadas que nas outras regiões. Pra isso, devemos pensar se a embalagem está chegando intacta ou se ela está de acordo com o grau de exigência do consumidor da capital. Além disso, podem estar ocorrendo atrasos na entrega, gerando insatisfação nesse quesito.
Por fim, vamos colocar um dado importante, investigando a relação entre fidelização e satisfação do consumidor. Para isso, voltaremos mais uma vez ao diagrama de dispersão.
> scatterplot(Nível.de.Uso~Nível.de.Satisf., reg.line=lm, smooth=FALSE, spread=FALSE,
+ boxplots=FALSE, span=0.5, ellipse=FALSE, levels=c(.5, .9), xlab="Nível de Satisfação",
+ ylab="Nível de Uso", main="Relação entre fidelização e satisfação", data=HATCO)
Este gráfico deixa claro que para fidelizar o cliente, é necessário deixá-lo satisfeito. Para que ele fique satisfeito, é preciso entender e atender suas necessidades, seja entregando o produto no prazo, seja melhorando a sua apresentação.
Temos um grande problema de fidelização dos clientes, com índices abaixo dos 50% de celulares comprados na HATCO. Para isso, um estudo estatístico do questionário aplicado no consumidor nos mostrou caminhos para corrigir o problema e direcionar as próximas estratégias de marketing e de operações para atingir os objetivos no próximo ano.
> save("HATCO",
+ file="C:/Users/Xavier/Desktop/Glauco/Administração Pública/2o Período/Estatística/Base_de_dados-master/HATCO corrigido.RData.RData")