class: center, middle, inverse, title-slide # Análise estatística descritiva com uso de R ## Análise bidimensional: Correlação linear e chi-quadrado ### Marília Melo Favalesso --- background-image: url(fig/background.png) background-size: cover .center[ ## .big-text[Hola!] ### Marília Melo Favalesso .pull-left[ <img style="border: 2px solid #555; border-radius: 70%;" src="fig/me.png" width="200px"/> <svg viewBox="0 0 512 512" style="height:1em;position:relative;display:inline-block;top:.1em;fill:#000000;" xmlns="http://www.w3.org/2000/svg"> <path d="M502.3 190.8c3.9-3.1 9.7-.2 9.7 4.7V400c0 26.5-21.5 48-48 48H48c-26.5 0-48-21.5-48-48V195.6c0-5 5.7-7.8 9.7-4.7 22.4 17.4 52.1 39.5 154.1 113.6 21.1 15.4 56.7 47.8 92.2 47.6 35.7.3 72-32.8 92.3-47.6 102-74.1 131.6-96.3 154-113.7zM256 320c23.2.4 56.6-29.2 73.4-41.4 132.7-96.3 142.8-104.7 173.4-128.7 5.8-4.5 9.2-11.5 9.2-18.9v-19c0-26.5-21.5-48-48-48H48C21.5 64 0 85.5 0 112v19c0 7.4 3.4 14.3 9.2 18.9 30.6 23.9 40.7 32.4 173.4 128.7 16.8 12.2 50.2 41.8 73.4 41.4z"></path></svg> [mariliabioufpr@gmail.com](mariliabioufpr@gmail.com) <svg viewBox="0 0 496 512" style="height:1em;position:relative;display:inline-block;top:.1em;fill:#000000;" xmlns="http://www.w3.org/2000/svg"> <path d="M248 8C111.03 8 0 119.03 0 256s111.03 248 248 248 248-111.03 248-248S384.97 8 248 8zm82.29 357.6c-3.9 3.88-7.99 7.95-11.31 11.28-2.99 3-5.1 6.7-6.17 10.71-1.51 5.66-2.73 11.38-4.77 16.87l-17.39 46.85c-13.76 3-28 4.69-42.65 4.69v-27.38c1.69-12.62-7.64-36.26-22.63-51.25-6-6-9.37-14.14-9.37-22.63v-32.01c0-11.64-6.27-22.34-16.46-27.97-14.37-7.95-34.81-19.06-48.81-26.11-11.48-5.78-22.1-13.14-31.65-21.75l-.8-.72a114.792 114.792 0 0 1-18.06-20.74c-9.38-13.77-24.66-36.42-34.59-51.14 20.47-45.5 57.36-82.04 103.2-101.89l24.01 12.01C203.48 89.74 216 82.01 216 70.11v-11.3c7.99-1.29 16.12-2.11 24.39-2.42l28.3 28.3c6.25 6.25 6.25 16.38 0 22.63L264 112l-10.34 10.34c-3.12 3.12-3.12 8.19 0 11.31l4.69 4.69c3.12 3.12 3.12 8.19 0 11.31l-8 8a8.008 8.008 0 0 1-5.66 2.34h-8.99c-2.08 0-4.08.81-5.58 2.27l-9.92 9.65a8.008 8.008 0 0 0-1.58 9.31l15.59 31.19c2.66 5.32-1.21 11.58-7.15 11.58h-5.64c-1.93 0-3.79-.7-5.24-1.96l-9.28-8.06a16.017 16.017 0 0 0-15.55-3.1l-31.17 10.39a11.95 11.95 0 0 0-8.17 11.34c0 4.53 2.56 8.66 6.61 10.69l11.08 5.54c9.41 4.71 19.79 7.16 30.31 7.16s22.59 27.29 32 32h66.75c8.49 0 16.62 3.37 22.63 9.37l13.69 13.69a30.503 30.503 0 0 1 8.93 21.57 46.536 46.536 0 0 1-13.72 32.98zM417 274.25c-5.79-1.45-10.84-5-14.15-9.97l-17.98-26.97a23.97 23.97 0 0 1 0-26.62l19.59-29.38c2.32-3.47 5.5-6.29 9.24-8.15l12.98-6.49C440.2 193.59 448 223.87 448 256c0 8.67-.74 17.16-1.82 25.54L417 274.25z"></path></svg> [www.mmfava.com](www.mmfava.com) <svg viewBox="0 0 496 512" style="height:1em;position:relative;display:inline-block;top:.1em;fill:#000000;" xmlns="http://www.w3.org/2000/svg"> <path d="M165.9 397.4c0 2-2.3 3.6-5.2 3.6-3.3.3-5.6-1.3-5.6-3.6 0-2 2.3-3.6 5.2-3.6 3-.3 5.6 1.3 5.6 3.6zm-31.1-4.5c-.7 2 1.3 4.3 4.3 4.9 2.6 1 5.6 0 6.2-2s-1.3-4.3-4.3-5.2c-2.6-.7-5.5.3-6.2 2.3zm44.2-1.7c-2.9.7-4.9 2.6-4.6 4.9.3 2 2.9 3.3 5.9 2.6 2.9-.7 4.9-2.6 4.6-4.6-.3-1.9-3-3.2-5.9-2.9zM244.8 8C106.1 8 0 113.3 0 252c0 110.9 69.8 205.8 169.5 239.2 12.8 2.3 17.3-5.6 17.3-12.1 0-6.2-.3-40.4-.3-61.4 0 0-70 15-84.7-29.8 0 0-11.4-29.1-27.8-36.6 0 0-22.9-15.7 1.6-15.4 0 0 24.9 2 38.6 25.8 21.9 38.6 58.6 27.5 72.9 20.9 2.3-16 8.8-27.1 16-33.7-55.9-6.2-112.3-14.3-112.3-110.5 0-27.5 7.6-41.3 23.6-58.9-2.6-6.5-11.1-33.3 2.6-67.9 20.9-6.5 69 27 69 27 20-5.6 41.5-8.5 62.8-8.5s42.8 2.9 62.8 8.5c0 0 48.1-33.6 69-27 13.7 34.7 5.2 61.4 2.6 67.9 16 17.7 25.8 31.5 25.8 58.9 0 96.5-58.9 104.2-114.8 110.5 9.2 7.9 17 22.9 17 46.4 0 33.7-.3 75.4-.3 83.6 0 6.5 4.6 14.4 17.3 12.1C428.2 457.8 496 362.9 496 252 496 113.3 383.5 8 244.8 8zM97.2 352.9c-1.3 1-1 3.3.7 5.2 1.6 1.6 3.9 2.3 5.2 1 1.3-1 1-3.3-.7-5.2-1.6-1.6-3.9-2.3-5.2-1zm-10.8-8.1c-.7 1.3.3 2.9 2.3 3.9 1.6 1 3.6.7 4.3-.7.7-1.3-.3-2.9-2.3-3.9-2-.6-3.6-.3-4.3.7zm32.4 35.6c-1.6 1.3-1 4.3 1.3 6.2 2.3 2.3 5.2 2.6 6.5 1 1.3-1.3.7-4.3-1.3-6.2-2.2-2.3-5.2-2.6-6.5-1zm-11.4-14.7c-1.6 1-1.6 3.6 0 5.9 1.6 2.3 4.3 3.3 5.6 2.3 1.6-1.3 1.6-3.9 0-6.2-1.4-2.3-4-3.3-5.6-2z"></path></svg> [ github.com/mmfava](https://github.com/mmfava) ] ] .pull-right[ .center[**Educação**] <svg viewBox="0 0 640 512" style="height:1em;position:relative;display:inline-block;top:.1em;fill:#000000;" xmlns="http://www.w3.org/2000/svg"> <path d="M622.34 153.2L343.4 67.5c-15.2-4.67-31.6-4.67-46.79 0L17.66 153.2c-23.54 7.23-23.54 38.36 0 45.59l48.63 14.94c-10.67 13.19-17.23 29.28-17.88 46.9C38.78 266.15 32 276.11 32 288c0 10.78 5.68 19.85 13.86 25.65L20.33 428.53C18.11 438.52 25.71 448 35.94 448h56.11c10.24 0 17.84-9.48 15.62-19.47L82.14 313.65C90.32 307.85 96 298.78 96 288c0-11.57-6.47-21.25-15.66-26.87.76-15.02 8.44-28.3 20.69-36.72L296.6 284.5c9.06 2.78 26.44 6.25 46.79 0l278.95-85.7c23.55-7.24 23.55-38.36 0-45.6zM352.79 315.09c-28.53 8.76-52.84 3.92-65.59 0l-145.02-44.55L128 384c0 35.35 85.96 64 192 64s192-28.65 192-64l-14.18-113.47-145.03 44.56z"></path></svg> Estudante de doutorado em ['Ecología, Genética y Evolución'](http://www.ege.fcen.uba.ar/home/), 2018 - atual, *Universidad de Buenos Aires*, Argentina. <br> <svg viewBox="0 0 640 512" style="height:1em;position:relative;display:inline-block;top:.1em;fill:#000000;" xmlns="http://www.w3.org/2000/svg"> <path d="M622.34 153.2L343.4 67.5c-15.2-4.67-31.6-4.67-46.79 0L17.66 153.2c-23.54 7.23-23.54 38.36 0 45.59l48.63 14.94c-10.67 13.19-17.23 29.28-17.88 46.9C38.78 266.15 32 276.11 32 288c0 10.78 5.68 19.85 13.86 25.65L20.33 428.53C18.11 438.52 25.71 448 35.94 448h56.11c10.24 0 17.84-9.48 15.62-19.47L82.14 313.65C90.32 307.85 96 298.78 96 288c0-11.57-6.47-21.25-15.66-26.87.76-15.02 8.44-28.3 20.69-36.72L296.6 284.5c9.06 2.78 26.44 6.25 46.79 0l278.95-85.7c23.55-7.24 23.55-38.36 0-45.6zM352.79 315.09c-28.53 8.76-52.84 3.92-65.59 0l-145.02-44.55L128 384c0 35.35 85.96 64 192 64s192-28.65 192-64l-14.18-113.47-145.03 44.56z"></path></svg> [Mestre em Conservação e Manejo de Recursos Naturais](https://www5.unioeste.br/portalunioeste/pos/pprn), 2016 - 2018, Universidade estadual do Oeste do Paraná, Brasil. <br> <svg viewBox="0 0 640 512" style="height:1em;position:relative;display:inline-block;top:.1em;fill:#000000;" xmlns="http://www.w3.org/2000/svg"> <path d="M622.34 153.2L343.4 67.5c-15.2-4.67-31.6-4.67-46.79 0L17.66 153.2c-23.54 7.23-23.54 38.36 0 45.59l48.63 14.94c-10.67 13.19-17.23 29.28-17.88 46.9C38.78 266.15 32 276.11 32 288c0 10.78 5.68 19.85 13.86 25.65L20.33 428.53C18.11 438.52 25.71 448 35.94 448h56.11c10.24 0 17.84-9.48 15.62-19.47L82.14 313.65C90.32 307.85 96 298.78 96 288c0-11.57-6.47-21.25-15.66-26.87.76-15.02 8.44-28.3 20.69-36.72L296.6 284.5c9.06 2.78 26.44 6.25 46.79 0l278.95-85.7c23.55-7.24 23.55-38.36 0-45.6zM352.79 315.09c-28.53 8.76-52.84 3.92-65.59 0l-145.02-44.55L128 384c0 35.35 85.96 64 192 64s192-28.65 192-64l-14.18-113.47-145.03 44.56z"></path></svg> [Bacharela em Ciências Biológicas](http://www.palotina.ufpr.br/portal/ciencias-biologicas/), 2010 - 2014, Universidade Federal do Paraná, Brasil. <br> <svg viewBox="0 0 640 512" style="height:1em;position:relative;display:inline-block;top:.1em;fill:#000000;" xmlns="http://www.w3.org/2000/svg"> <path d="M622.34 153.2L343.4 67.5c-15.2-4.67-31.6-4.67-46.79 0L17.66 153.2c-23.54 7.23-23.54 38.36 0 45.59l48.63 14.94c-10.67 13.19-17.23 29.28-17.88 46.9C38.78 266.15 32 276.11 32 288c0 10.78 5.68 19.85 13.86 25.65L20.33 428.53C18.11 438.52 25.71 448 35.94 448h56.11c10.24 0 17.84-9.48 15.62-19.47L82.14 313.65C90.32 307.85 96 298.78 96 288c0-11.57-6.47-21.25-15.66-26.87.76-15.02 8.44-28.3 20.69-36.72L296.6 284.5c9.06 2.78 26.44 6.25 46.79 0l278.95-85.7c23.55-7.24 23.55-38.36 0-45.6zM352.79 315.09c-28.53 8.76-52.84 3.92-65.59 0l-145.02-44.55L128 384c0 35.35 85.96 64 192 64s192-28.65 192-64l-14.18-113.47-145.03 44.56z"></path></svg> [Técnica em Meio-ambiente](https://www.ceepcascavel.com.br/), 2005 - 2009, CEEP Pedro Boaretto Neto, Brasil. ] --- ## Lembre-se! ### **Pergunte, pergunte & perguntas!** ✋🎤 💬 <br> ### **Aula de revisão de conteúdos e exercícios!** ✏️ <br> ### **De preferência, mantenha a câmera ligada** 📷 <br> ### **Respeitar os colegas e a profa.** 👊 <br> ### **Tentar se divertir durante a aula.** 🥳 <br> --- ## Conteúdo programático da mini-aula - [O que é correlação](#correlation) - [Correlação ≠ Causalidade](#causalidade) - [Correlação linear](#cor_linear) - [Coeficiente de correlação produto-momento (r)](#dir) - [Exercício](#exe1) - `\(\chi^2\)` [de associação](#qui) - [Resíduos ajustados](#qui) - [Exercício](#exe2) --- name: correlation class: middle, center # O que é correlação? --- ## O que é correlação? > Em estatística, a **correlação** mede a **direção** e a **intensidade** de uma relação entre duas variáveis. - Por exemplo: - **↑**🌡️ **↑**🍧**?** - **↑**📚 **↑**💰**?** - **↑**🍆 **↓**🐷**?** - **↑**🚴 **↓**💨**?** - **↑**🙋 **↑**🦵**?** - **↑**🚬 **↑**👃**?** > Quando se pode demonstrar que existe associação entre duas variáveis, isto é, quando se constata que elas variam juntas, diz-se que as variáveis estão **correlacionadas**. --- ## O que é correlação? ### Correlação ≠ Causalidade .center[ ### **↑**🦵 ~ **↑**🙋 **?** ![](slides_files/figure-html/unnamed-chunk-1-1.png)<!-- --> ] --- name: cor_linear class: middle, center # Correlação linear --- name: dir ## Correlação linear ### Coeficiente de correlação produto-momento (r) - O **r** (*rhô*) é uma medida da força e direção da correlação entre duas variáveis quantitativas e também é conhecido como **coeficiente de correlação de Pearson**. .center[<img src="fig/corplot4.png" style="width: 38%;">] --- ## Correlação linear ### Direção da correlação .center[<img src="fig/regua2.png" style="width: 40%;">] <small> > A partir dos diagramas de dispersão, já temos uma indicação se a relação entre as variáveis é **positiva** (quando as duas crescem juntas), **negativa** (quando uma aumenta e a outra diminui) ou se **não há correlação**. </small> --- ## Correlação linear ### Intensidade da correlação .center[<img src="fig/inter.png" style="width: 50%;">] --- name: exe1 ## Correlação linear ### Exercício 💻 Existe associação entre o PIB total (R$) dos municípios brasileiros e o tamanho de suas populações? ```r ## Pacotes ---- library(tidyverse) # manipulação dos dados library(janitor) # limpeza dos dados ## Importar os dados ---- # • Para importar os dados em .csv, utilizamos a função "read.csv". dados_socio_economicos <- read_csv("dados_socio_economicos.csv") %>% # importação da tabela clean_names # examinar e limpar os nomes das colunas dados_socio_economicos %>% names # Consultar as variáveis contidas na tabela ``` <small> \#\# [1] "uf" "cod_uf" "cod_municipio" "nome_do_municipio" "populacao_estimada" "pib_per_capita" "pib_total_em_r_mi" <br> \#\# [2] "atividade_economica" "ranking_pib_per_capita" "ranking_pib_total" </small> --- ## Correlação linear ### Exercício 💻 ```r ## Plotar os dados em um gráfico de dispersão --- dados_socio_economicos %>% # tabela de dados ggplot(aes(x = populacao_estimada, y = pib_total_em_r_mi)) + # var linha e colunax geom_point() + # transparência e tamanho dos pontos xlab("População estimada") + # nome do eixo X ylab("PIB total (R$)") # nome do eixo Y ``` <center>
</center> --- ## Correlação linear ### Exercício 💻 ```r ## Plotar os dados com transformação nos eixos --- dados_socio_economicos %>% ggplot(aes(x = populacao_estimada, y = pib_total_em_r_mi)) + geom_point() + * scale_x_log10() + * scale_y_log10() + xlab("População estimada") + ylab("PIB total (R$)") ``` --- ## Correlação linear ### Exercício 💻 ```r ## Plotar os dados com transformação nos eixos --- dados_socio_economicos %>% ggplot(aes(x = populacao_estimada, y = pib_total_em_r_mi)) + geom_point() + scale_x_log10() + # transformação log dados do eixo x scale_y_log10() + # transformação log dados do eixo y xlab("População estimada") + ylab("PIB total (R$)") ``` <center>
</center> --- ## Correlação linear ### Exercício 💻 - Para finalizar, precisamos calcular o **r** para os nossos dados: ```r cor( dados_socio_economicos$populacao_estimada, dados_socio_economicos$pib_total_em_r_mi ) ``` ``` ## [1] 0.9621635 ``` > Existe uma correlação **\_\_\_\_\_\_\_\_\_\_** e **\_\_\_\_\_\_\_\_\_\_** entre a população estimada e o PIB total (r = **\_\_\_\_**). --- ## Correlação linear ### Exercício 💻 - Para finalizar, precisamos calcular o **r** para os nossos dados: ```r cor( dados_socio_economicos$populacao_estimada, dados_socio_economicos$pib_total_em_r_mi ) ``` ``` ## [1] 0.9621635 ``` > Existe uma correlação **positiva** e **muito forte** entre a população estimada e o PIB total (r = **0,96**). --- name: qui class: middle, center # `\(\chi^2\)` de associação ## Resíduos ajustados --- ## `\(\chi^2\)` de associação ### Resíduos ajustados - Os resíduos do `\(\chi^2\)` (qui-quadrado) de associação ou de independência são utilizados para avaliar a correlação entre **variáveis categóricas**, assim como o coeficiente **r** é usado para o mesmo fim com variáveis quantitativas. - **Exemplo:** - A presença de doenças respiratórias está associado ao tabagismo? (amostra: n = 40). .center[<img src="fig/cont2.png" style="width: 43%;">] --- ## `\(\chi^2\)` de associação ### Gráfico de barras empilhadas .center[ ![](slides_files/figure-html/unnamed-chunk-11-1.png)<!-- --> ] --- ## `\(\chi^2\)` de associação ### Resíduos ajustados .center[<img src="fig/cont3.png" style="width: 35%;">] > No **R** usamos a função `chisq.test(X, Y)$stdres` para obter os `\(R_{aj}\)`. --- name: exe2 ## `\(\chi^2\)` de associação ### Exercício 💻 - Existe associação entre raça e identificação partidária para os entrevistados pelo *US General Social Survey*? ```r ## Pacotes ---- library(tidyverse) # manipulação de dados + gráficos library(janitor) # limpeza nos dados library(dados) # onde está a tabela de dados library(viridis) # para usar a paleta de cores viridis ``` ``` ## Carregando pacotes exigidos: viridisLite ``` ```r library(corrplot) # usaremos para plotar os resíduos ``` ``` ## corrplot 0.90 loaded ``` ```r ## Chamar os dados da tabela 'questionario'{dados} ---- questionario <- questionario %>% clean_names questionario %>% names # variáveis da tabela ``` ``` ## [1] "ano" "estado_civil" "idade" "raca" "renda" ## [6] "partido" "religiao" "denominacao" "horas_tv" ``` --- ## `\(\chi^2\)` de associação ### Exercício 💻 .pull-left[ **Gráfico de barras empilhadas** ```r ## Para criar o gráfico usamos o pacote 'ggplot' questionario %>% # incluimos nossos dados ggplot(aes(y = raca, # raça vai no eixo "y" fill = partido)) + # as barras empilhadas correspondem a partido geom_bar( # usamos a função "geom_bar" para criar o grafico position = "fill" # posição das barras no gráfico ) + scale_fill_viridis( # usamos a paletta de cores 'viridis'... discrete = TRUE, # ... para dados discretos name = "Partido") + # título da legenda xlab("Frequência relativa") + # nome do eixo x ylab("Raça") # nome do eixo y ``` ] .pull-right[ ![](slides_files/figure-html/unnamed-chunk-14-1.png)<!-- --> ] --- ## `\(\chi^2\)` de associação ### Exercício 💻 **Análise dos resíduos** <div style="width: 1050px; height: 380px; white-space: nowrap; overflow-x: scroll; overflow-y: scroll; border: 0; padding: 0px; display: inline-block;"> ```r chisq.test(questionario$raca, questionario$partido)$stdres %>% corrplot(is.cor = FALSE) ``` ![](slides_files/figure-html/unnamed-chunk-16-1.png)<!-- --> ``` ## NULL ``` > Observamos que há uma associação **positiva** entre a raça preta e o <br> partido democrata; e entre brancos e o partido republicano. --- ## Dúvidas? .center[<img src="fig/qr.png" style="width: 35%;"> <https://www.menti.com/hs6etjj2u9> (cod: 7513-1177) ] --- class: center <br> ## FIM! <br> .center[<img src="fig/ms.gif" style="width: 60%;">]