maio 27, 2020

Aprendendo Visualização de Dados: minha experiência com o dashboard da covid-19

Por data2learning

Vamos falar de visualização de dados? O dashboard da covid-19 foi a porta de entrada para trabalhar com uma área que já tinha interesse: visualização dos dados. Esse texto (que foi publicado como uma thread no twitter) é sobre o que aprendi e sobre as mudanças que apliquei no dashboard.

Ao longo do seu desenvolvimento, procurei ler um pouco sobre o tema e melhorar o dashboard com o que ia lendo. Ainda tenho muito o que estudar, mas acho que já consegui evoluir bastante desde a primeira versão.

Além da preocupação de montar os gráficos, tinha a preocupação de não invadir uma área que não era minha: área da saúde. Por isso evitei fazer análises, mas procurei acompanhar notícias e canais relacionados ao tema. Entender o que se plota é essencial. Não são apenas números 😉

Um link que me ajudou muito a decidir o que colocar e como exibir as informações no dashboard foi esse aqui: https://escoladedados.org/2020/04/graficos-covid19/. Além disso, sempre via dicas bem legais nas análises feita pelo @canalpeixebabel e olhava os gráficos do OurWorldInData: https://ourworldindata.org/.

Um ponto importante foi a escolha das cores. A idéia é exibir os dados e informar sem criar alarmismo a partir do uso de alguma cor. Um exemplo foi o uso da cor vermelha que sempre era usada para informações relacionadas à mortes, número de UTIs.

Por isso, uniformizei as cores para a página ficar mais harmônica e deixei um padrão em todas elas. Mas dá uma vontade de colocar um FIQUE EM CASA bem vermelho 😉

Optei também pela Inclusão de dados sobre recuperados e testes realizados. O foco não pode ser só no número de mortes. No entanto, não podemos relativizar. O problema é sério e o número de mortes aumenta a cada dia =/

Dei preferência por colocar os valores absolutos nas tabelas. Comparações com valores absolutos podem levar a interpretações incorretas. Os surtos começaram em épocas distintas, os países e cidades têm populações de tamanho diferentes, a quantidade de testes varia muito.

Nos gráficos que relacionam mais de um país/estado/cidade usei os valores de mortes e casos por habitantes. Isso evita comentários do tipo: “ahhh mais no Brasil tem mais pessoas”. Dados por habitantes nos mostram uma melhor realidade de cada local.

Essa mesma estratégia foi usada para representar mapas: valores por habitantes. Usei mapa na página de Sergipe e optei por um choropleth map mas com escala de cores que representam um intervalo de valores. Usar as cores para os valores contínuos dificulta a interpretação do mapa.

Nos gráficos que foram colocados os valores absolutos, eles foram feitos sempre utilizando a escala log para melhor visualizar as curvas. Isso permitiu eliminar as discrepâncias e focar no comportamento das curvas.

Vale lembrar que a leitura dos gráficos deve ser feita sempre com um olho nele e o outro nos demais fatores como casos, casos por habitantes, testes ….

Usei os dados diários ao invés do total na representação da evolução dos casos. Isso ajuda a ver quando as curvas começam a diminuir. Como essa informação varia muito de um dia para o outro, principalmente nos fds, usei a média dos últimos 7 dias para representar cada dia.

Procurei usar o mínimo possível de gráfico de pizza. Mesmo já tendo lido que não é o melhor dos gráficos, achei válido para representação de ocupação de leitos. Principalmente, o gráfico Sunburst que permite visualizar de forma mais ampla as ocupações.

Um outro recurso utilizado foram as anotações nos gráficos. Apesar de sempre tentar deixar o gráfico falar por si só, o uso de anotações serviu para que eu pudesse destacar algum valor ou informação nos gráficos.

Por fim, em relação à tecnologia estou usando Flask + Pandas + Plotly para montar o dashboard. Existem várias combinações de ferramentas, mas essas eram as que eu dominava minimamente para construção do dash.

Acho que é isso, foram dois meses de muito aprendizado, mas ainda tenho muito o que estudar. Sigo pensando em outras formas de visualização. Quem quiser ver o dashboard completo, acesse: covid19.data2learning.com

E aí o que acharam? Mandem críticas e sugestões 🙂

Não deixe de me seguir no Instagram @profadolfoguimaraes para ficar por dentro das postagens e assuntos relacionados à Inteligência Artificial, Machine Learning e Análise de Dados.