Visualização de Missing data ou dados faltantes

No trabalho ou estudo de base de dados é muito comum os pesquisadores (Data Science, universidades, empresas, laboratórios, centros e núcleos de pesquisa) depararem-se com dados faltantes ou os famosos missing data ou missing value. Com a crescente demanda de aquisição e armazenamento de dados e modelos preditivos mais complexos, como saber identificar e manipular os missing data está no topo de qualquer data analysis, principalmente data wrangling. Neste post vou mostrar a visualização de missing data ou dados faltantes aplicando técnicas de visualização de dados.

O que são missing data ou missing value ou dado faltante

Mas o que são missing data, como o próprio nome diz, são dados que por diversos motivos não estão presentes em uma base de dados, que por falhas na armazenagem, uploading ou downloading dos dados ou, simplesmente, não existirem ou não terem sido preenchidos.

Como manipular missing data ou missing value ou dado faltante

Muitas são as técnicas para tratar os dados faltantes que vão desde substituí-los pela respectiva média da variável em análise, passando pela eliminação das amostras ou variáveis que os contenham chegando até metodologias mais complexos que demandam a utilização de um modelo matemático. O importante a saber é que a metodologia aplicada, as vezes, pode ser mais prejudicial do que benéfica e descaracterizar toda a base de dados. E quando esta variável está diretamente correlacionada com uma variável resposta, o resultado de um modelo não desempenha bom comprometimento.
Assim, a técnica que melhor se adaptar dependerá do tipo de variável a qual o missing data pertence, a sua quantidade em relação ao total e como esta variável está vinculada a variável resposta.

Na fase preliminar de tratamento dos dados é fundamental quantiticar os missing value para saber o seu percentual em relação a base de dados. Tão importante quanto quantificar é visualizar dentro da base de dados a localização dos dados faltantes para verificar se é um processo aleatório ou sistemático.

Visualização de missing data ou missing value ou dado faltante

A visualização dos dados faltantes ainda não é uma abordagem corriqueira na análise destes. Principalmente se a quantidade for ínfima, entretanto, a sua utilização propícia a busca por padrões e deixa o processo intuitivo.
Utilizarei basicamente duas formas gráficas de visualização de missing data através de três gráficos a saber. Primeiramente, o conceito de heatmap e a respectiva função em Python desempenham papel fundamental para este fim. Em seguida utiliza-se funções para visualização de distribuições de dados uni e bivariados.

Heatmap de missing data

A figura mostra um heatmap binário, onde zero representa os dados completos e 1 representa os valores faltantes. Observa-se que duas variáveis (Date/Time e Month) não apresentam falta de dados, enquanto as outras possuem missing values. A variável Total Snow, visivelmente, é a que tem mais valores faltantes.
Como o intuito da metodologia é exatamente mostrar de forma visual os valores que estão ausentes, o heatmap mostra-se excelente para este objetivo.

 visualização de missing data ou dados faltantes aplicando técnicas de visualização de dados
Figura1: missing value com heatmap

A figura abaixo mostra o fração de código usada para gerar o gráfico do heatmap.

Código -  visualização de missing data ou dados faltantes aplicando técnicas de visualização de dados
Fragmento de código de visualização

Visualização de Missing data com funções de distribuição

A Figura mostra a aplicação da função displot para visualização dos valores faltantes. Com o gráfico observa-se a noção de proporcionalidade entre os dados presentes e faltantes. Com o gráfico também atinge-se o objetivo de visualização dos valores que estão ausentes.

Displot -  visualização de missing data ou dados faltantes aplicando técnicas de visualização de dados
Figura2: missing value com displot

A figura abaixo mostra o fração de código usada para gerar o gráfico com a utilização da função displot.

Código Python -  visualização de missing data ou dados faltantes aplicando técnicas de visualização de dados

Conclusão

A visualização de dados faltantes com auxílio de heatmap e displot propicia uma excelente observação de como os missing value se apresentam dentro de uma base de dados.

Bom, esta é uma abordagem bem resumida sobre a utilização de  heatmap e displot e como fazê-lo em Python. Em breve, colocarei um post com uma abordagem mais avançada de como personalizar os gráficos e as mudanças nas respectivas funções. Em caso de dúvidas ou querendo mais detalhes é só entrar em contato. Visite e siga no Instagram @invited_researcher

    Leave A Comment