S.O.T: Datasaurus e a visualização de dados

E ai, pessoal!?

Primeiramente gostaria de agradecer a galera que curtiu o último post(se você não leu, clica aqui) e que mandou dicas de novos aprendizados. Esse segundo post entra na categoria “Seguindo o Tutorial” e é algo que descobri por acaso e percebi que tem uma importância enorme quando se trata de análises e visualização de dados, podendo gerar um problemão. Em suma, esse post é um tutorial utilizando o pacote Datasaurus e uma discussão sobre estatística básica!

Tudo começou apenas como uma brincadeira do professor e infografista Alberto Cairo, que utilizou uma ferramenta criada por Robert Grant, um designer de estatística e visualização, para desenhar um dinossauro, que ficou conhecido como datasaurus. Esse site permite que você crie todos os pontos em um gráfico de dispersão e depois baixe os dados correspondentes.

Pegando carona nessa brincadeira, somos apresentados ao Quarteto de Anscombe. WTF??  

O Quarteto de Anscombe é o nome dado a quatro conjuntos de dados que aparentam ser idênticos quando descritos por certas técnicas de estatística descritiva (como a média e a variância), mas que são muito distintos quando exibidos graficamente. Ele leva o nome do estatístico F.J. Anscombe que o publicou pela primeira vez em 1973, com o objetivo de demonstrar tanto a importância de se visualizar os dados antes de analisá-los quanto o efeito dos outliers nas propriedades estatísticas. (kibado da Wikipédia)

O jornalista  criou uma ferramenta para exemplificar esse caso:

Nota-se que a média, a variância e a correlação entre x e y em cada caso é muito próxima ou exata, pelo menos olhando de forma superficial, e geram gráficos totalmente diferentes.

Tendo como fio condutor essas discussões, os pesquisadores Justin Matejka e George Fitzmaurice escreveram um artigo muito interessante intitulado Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing, que aprofundam mais nesse tema e mostram outros casos interessantes.

Os datasets utilizados nesse artigo deram origem ao Datasaurus Dozen, conjunto de dados com estatísticas parecidas mas que originam gráficos totalmente diferentes e que podem ser reproduzidos utilizando o código abaixo:

 

O resultado é um conjunto de 13 gráficos que formam desenhos como esses aqui:

 

 

No mesmo artigo, os pesquisadores dão mais alguns exemplos de dados:

 

Sete distribuições de dados, mostradas como pontos de dados brutos (ou strip-plots), como box-plots e como violin-plots.

 

Uma curiosidade interessante é que o Alberto Cairo mudou o nome da figura que ele criou para Anscombosaurus, em homenagem a Francis J. Anscombe.

Pra terminar, fica o aprendizado:

“Don’t trust summary statistics. Always visualize your data first!”.

 

O “Seguindo O Tutorial (S.O.T.)” é uma categoria de post no Data7 que tem como objetivo refazer tutoriais disponibilizados em outros blogs com algumas modificações. Esse tutorial foi feito pelo William, no post Você está a menos de 1 km de um hambúrguer? do Curso-R.

PS: Vi que existe outra forma de fazer esse tutorial mas não cheguei no nível de aprendizado pra entender o código ainda. Quando conseguir, prometo fazer um novo post e apresentar!

Escrito por Janderson Toth

Meu nome é Janderson, tenho 24 anos e sou graduando em Estudos de Mídia/UFF. Vivo fazendo tutorias, me perco nos animes e meu super-herói favorito é o John Constantine. Escrevo para aprender a escrever(?) e para desenvolver meus estudos em análise de redes sociais e programação em R.