Posts Tagged: excel

Análise | Regressão linear simples e múltipla no Excel

white printing paper with numbers

Qual é a relação entre duas variáveis (quantitativas numéricas) e como podemos entender a relação entre elas? É o que a correlação linear responde. Com isso projetamos uma terceira via de análise, em um modelo de regressão linear, com base nas descobertas. Os valores dos coeficientes são entre -1 e 1. Quanto mais próximo de 1, a relação é mais forte, quanto menos próximo de -1, mais fraca. Simples, não?

A base abaixo corresponde a conta econômica baixada aqui.

Calculando a correlação linear entre o PIB e outras variáveis presentes na planilha.

Correlação: A correlação foi feita com todas as colunas (a principal do PIB e uma das variáveis)* e os resultados são os seguintes:

  • As mais fortes correlações são entre renda nacional e o PIB (0,92); despesa de consumo final e o PIB (0,99); poupança bruta e o PIB (0,98) porque os valores de R estão acima de 0,9. Ou seja, próximo de 1.
  • Há correlação entre necessidade líquida de financiamento e o PIB (0,74), por estar acima de 0,7, mas não é tão forte.
  • há forte correlação negativa entre transferência líquida recebida do exterior e o PIB (-0,95); e, por fim, ativos não financeiros não produzidos e o PIB (-0,78);

*uma variável por vez.

Modelo 1: Todas as colunas (consumo das famílias, consumo do governo, formação bruta de capital fixo, variação de estoques, exportação e importação)

 

Conclusões (interpretando o modelo)

  • O coeficiente de correlação linear (R-múltiplo) indica que existe 100% da variabilidade do PIB brasileiro é explicada pelo modelo;
  • O coeficiente de determinação (R-quadrado ajustado) indica que 100% da variabilidade do PIB é explicada pelas variáveis do modelo.
  • A intersecção maior que 0,1 aponta que o h0 é diferente de 1.
  • Consumo das famílias, do governo, formação bruta de capital fixo, variação de estoques, exportação e importação possuem um p-value menor que 0,1, portanto há evidência de que as variáveis explicam o resultado do produto interno bruto.
  • O F no valor 0,000 indica relação linear entre as variáveis.
  • Aceitamos todas as hipóteses do modelo.

Só recorro ao Excel em último caso, mas admito que ele seja importante para quem esteja aprendendo a ser cientista de dados. É mais fácil ler e responder questões simples do modelo com a ferramenta. Depois, parti pro python, não tem jeito e em breve devo mostrar aqui.