Explorar Dados com Python: Aprenda usar gráficos adequados para interpretar os dados
Aprenda como explorar os dados usando o Python para interpretá-los. Descubra passo a passo como iniciar a interpretação dos dados de forma didática e prática.
ANÁLISE DE DADOSLIMPEZA E TRATAMENTO DOS DADOSPYTHON
Soraia Felício
4/16/20244 min read
Agora, vamos aprender a explorar os dados para começar a entender como ocorre a interpretação desses dados. Para começar, utilizaremos um arquivo criado por mim, de modo que fique mais didático o entendimento. Para isso, vamos seguir os passos detalhados a seguir. Vamos utilizar recortes dos códigos-fontes através do Jupyter-lab. Já mostramos alguns detalhes sobre o Jupyter-lab, a documentação do Pandas e como abrir um arquivo em "Como ler um arquivo CSV usando Python", basta clicar no final desse post em "Voltar" ou acessá-lo pela opção do menu "Análise de Dados".
Importar a biblioteca Pandas e abrir arquivos.
A imagem a seguir mostra o comando para importar o Pandas e abrir o arquivo criado por mim chamado "dados_sociodemograficos.csv" para ficar mais didático a apresentação desse assunto tão importante dentro da limpeza e tratamento de dados, que é a exploração dos dados. Assim, você poderá entender melhor sobre o arquivo e os ajustes que você deve promover em cada dado desse arquivo. Você poderá visualizar os dados desse arquivo apenas com nome da variável que recebeu o retorno do método "read_csv", que nesse caso nomeamos como "dataset", mas poderia ser qualquer outro nome. Em muitos tutoriais vemos essa variável com o nome de "df" que significa "dataframe" que é o tipo de dado gerado pelo retorno da função "read_csv" do Pandas.
Explorando os dados com Python
1. Verificar o tamanho do arquivo, selecionar e renomear as colunas que desejamos considerar nessa análise.
Esse pode ser um dos primeiros passos para iniciarmos a exploração de nossos dados. A figura a seguir mostra os comandos para essas 3 tarefas: verificar o tamanho do arquivo (método "shape"), selecionar e renomear as colunas desse arquivo que vamos utilizar em nossa exploração. Observamos que inicialmente temos 13 linhas e 6 colunas e não precisamos trabalhar com todas as colunas. Por isso, antes de renomear as colunas, vamos selecionar as colunas que desejamos explorar. Em seguida, renomeamos essas colunas para uma nomenclatura mais intuitiva. Nesse passo, já vemos que há valores duplicados e nulos que precisamos tratar. A parte de limpeza e tratamento serão adicionados em outra postagem em nosso blog. Aqui, concentramo-nos apenas na exploração dos dados para avaliarmos os ajustes que precisamos realizar em cada dado.
2. Explorar cada dado
2.1 Dados categóricos
Dados categóricos são um tipo de dado que representam variáveis qualitativas, ou seja, características que podem ser divididas em categorias ou grupos distintos. Essas categorias não possuem uma ordem específica e não podem ser quantificadas de forma numérica. Exemplos comuns de dados categóricos incluem gênero, estado civil, tipo de produto, cor preferida, entre outros.
Ao trabalhar com dados categóricos, é importante entender como essas variáveis podem influenciar as análises estatísticas e os modelos de aprendizagem de máquina. Muitas vezes, é necessário converter esses dados em uma forma numérica para que possam ser utilizados nesses modelos de aprendizado de máquina. Isso pode ser feito através de técnicas como codificação one-hot, onde cada categoria é representada por uma variável binária, ou codificação ordinal, onde as categorias são substituídas por números inteiros com uma ordem específica.
Em nosso exemplo, temos apenas um dado categórico, que é o "Gênero". Veja que a figura abaixo com o código-fonte e o resultado de cada comando nos mostra que há necessidade de padronização nesses dados, pois uns estão como "F" ou "M" e outros como "Feminino" e "Masculino". Para além disso, em uma perspectiva mais técnica, notamos que o método "groupby" agrupa a coluna "Gênero" pela quantidade de linhas em cada categoria. Em seguida, o método "plot.bar" mostra um gráfico de barras para melhorar nossa visualização e interpretação desse dado.
2.2 Dados Numéricos
Nos dados numéricos podemos aplicar outras análises estatísticas como a mediana e utilizar outro tipo de gráfico exploratório, como o boxplot, que é uma técnica de visualização de dados que exibe a distribuição de um conjunto de dados e destaca valores atípicos. Ele consiste em um retângulo (o "box") que representa o intervalo interquartil e linhas (os "whiskers") que mostram a variabilidade dos dados. É útil para identificar discrepâncias (outliers ) e comparar distribuições. Em nosso exemplo, observamos essas variabilidade em relação à idade, quantidade de filhos e animais de estimação (pets) que cada pessoa possui. Nesse exemplo, notamos que existe uma variabilidade normal para cada pessoa entre 0 e 3 filhos, o mesmo em relação à quantidade de animais de estimação (pets) entre 0 e 4 pets por pessoa. Contudo, em relação à idade há uma discrepância (outlier) que precisará ser tratada. Veja a seguir a figura com os resultados obtidos com cada comando como demonstração da interpretação desses dados.