BOXPLOT: como fazer usando Python

Numa análise exploratória de dados é muito comum que não somente os pesquisadores, mas qualquer profissional que esteja analisando dados, precise valer-se do uso do BOXPLOT. Não é nada comum fazer-se confusão com a interpretação do que o boxplot tem a fornecer como informação. Ele pode ser utilizado para visualizar a distribuição dos dados de uma variável e também para fazer-se uma comparação entre elementos da amostra e/ou variáveis.

Este post mostrará de forma resumida, através do uso de Python como fazer o boxplot e também faremos sua interpretação através de exemplos práticos.

Source: storyset

Para a interpretação do boxplot, primeiramente, é interessante para o pesquisador, entender o conceito e diferença entre quartil e percentil.

O percentil é utilizado como uma medida de posição, onde em uma amostra ordenada e dividida em 100 partes indica onde determinado percentual de elementos encontram-se em relação ao percentual determinado. Assim, o percentil é referido como um número inteiro, entre 1 e 100, normalmente, utiliza-se os números 25, 50 e 75 que servem para dividir o espaço em quatro partes. Por exemplo, o percentil 25 refere-se ao valor da amostra que indica que 25% dos valores estão abaixo ou são iguais a ele.

A relação é Percentil25 = Percentil * Tamanho da Amostra / 100
Assim, para uma amostra com 60 elementos o Percentil_25 = 25 * 50 / 100 = 15
Isso significa que 25% dos elementos estão abaixo da posição 15, ou seja, do valor que a variável representa.
Se estivéssemos observando uma variável que representa a velocidade e nessa posição o valor fosse 30 km/h, 25% dos valores estão abaixo dos 30 km/h ou 75% acima. O percentil 50 é o que divide a amostra ao meio.

Quando a medida é o quartil, a referência é a divisão do espaço em quatro partes, ou seja, os percentis 25, 50 e 75 são o primeiro, segundo e terceiro quartil. O segundo quartil equivale ao percentil 50 que representa a mediana da amostra.

A figura 1 mostra a denominação das partes do boxplot.

Partes de um BOXPLOT

Interpretação do boxplot

O boxplot é observado em sua totalidade e também em partes. A Figura 2 mostra um boxplot para uma amostra que representa os QIs de 100 pessoas. Observa-se que existe um valor considerado outlier, ou seja, anômalo quando este encontra-se fora do eixo do boxplot. Os outliers são determinados pela distância interquartílica, que é dada pela diferença entre o primeiro e terceiro quartil, ou seja, entre 25% e 75% da amostra. Compara-se as caudas para ver o tamanho das distribuições, a cauda inferior demostra que a sua distribuição é maior do que a cauda superior. Os dados não apresentam simetria, pois a mediana não encontra-se no centro do box. Os dados são considerados assimétricos positivos, pois os dados estão mais próximos do primeiro quartil.

Figura2: Boxplot de uma amostra de QI.

No segundo exemplo, analisamos dois boxplots que representam dois grupos de dados referentes a amostras de QI. Na comparação o grupo 1 apresenta uma mediana maior que a do grupo 2, além de não possuir outlier e a distribuição de dados abaixo dos 25% e acima dos 75% serem maiores que o grupo 2. O grupo 1 também apresenta assimetria e está é negativa, pois está mais próxima do terceiro quadrante. A variabilidade do QI do grupo 1, é um pouco maior que a do grupo 2.

Figura3: Boxplot 1 e 2 representando dois grupos de 100 pessoas cada para amostras de QI.

A Figura 4 mostra o código para gerar o último boxplot.

Conclusão

Com a utilização do boxplot pode-se resumir e representar graficamente a distribuição de uma ou mais variáveis, obtendo-se rapidamente medidas como mediana, quartis e a visualização de outliers.  

Bom, esta é uma abordagem bem resumida sobre a utilização do boxplot e como fazê-lo em Python. Em breve, colocarei um post com uma abordagem mais avançada, mostrando como personalizar cada elemento do boxplot. Em caso de dúvidas ou querendo mais detalhes é só entrar em contato.

Leave A Comment