Limpeza e Tratamento de Dados

A limpeza e tratamento de dados é o primeiro passo da Análise de Dados

ANÁLISE DE DADOSLIMPEZA E TRATAMENTO DOS DADOS

Soraia Felício

4/14/20244 min read

A prática fundamental para empresas que desejam tomar decisões fundamentadas em informações concretas é uma boa análise de dados. Contudo, é essencial limpar e tratar os dados antes de iniciar qualquer análise. Portanto, esta etapa é essencial para garantir a precisão e confiabilidade dos dados utilizados.

A Importância da Limpeza e Tratamento de Dados

Existem dois momentos dos dados: a geração dos dados e, depois, a análise dos dados gerados. A geração dos dados pode ser através de software tradicional ou coleta de dados através de sensores. Enquanto, a análise dos dados produz informação e conhecimento através dos sistemas gerenciais que apresentam os dados em formato de gráficos e tabelas para uma tomada de decisão sobre o conhecimento gerado.

Ao gerar os dados que advém de software tradicionais pode existir problemas diversos nos dados, como erros de digitação, falhas nos sistemas de coleta de dados ou até mesmo a falta de padronização nos dados.

A limpeza e tratamento de dados consiste em identificar e corrigir esses erros, inconsistências e duplicidades presentes nos conjuntos de dados. Se os dados estiverem corrompidos ou imprecisos, podem levar a conclusões equivocadas e prejudicar a tomada de decisões estratégicas.

Portanto, realizar a limpeza e tratamento dos dados é de suma importância para evitar que esses problemas comprometam a análise posterior.

Entendimento dos dados

Dentro do processo de tratamento e limpeza dos dados é preciso entender como dados estão estruturados ou se não estão estruturados. Os dados estruturados são altamente organizados e fáceis para serem usados em modelos de aprendizagem de máquina. Por exemplo, dados em formato de planilha (tabela) ou banco de dados de clientes com estado, gênero, idade, etc. Já os dados semiestruturados tem alguma organização, por exemplo, arquivos JSON, XML, HTML, etc. Por fim, os dados não estruturados tem formatos em vídeo, imagem, texto, por exemplo, postagens em redes sociais, e-mails, etc. Esses dados requerem técnicas específicas para tratamento dos dados.

Após entender como os dados estão organizados, é preciso aplicar algumas técnicas estatísticas para entender sobre os dados. Supondo que sejam dados estruturados, é preciso entender o que cada coluna representa. Muitas vezes o nome das colunas não deixa claro isso, por isso, é preciso olhar para o dado de cada coluna para compreender. Veja o exemplo abaixo:

Nesse exemplo, observamos que precisamos renomear as colunas para entendermos qual o tratamento devemos aplicar, por exemplo, a coluna X1 pode ser entendido como identificador do cliente, a coluna X2 é o estado onde mora o cliente, a coluna X3 é o gênero, e o X4 é a idade.

Em um segundo momento, podemos utilizar técnicas de estatísticas para entender cada coluna se é numérica ou é categórica. Se os dados estão padronizados ou não, pois para o modelo de aprendizagem de máquina é preciso padronizarmos esses dados. Por exemplo, com relação aos dados categóricos, o estado pode estar com valor incorreto, RT, que não existe no conjunto de estados brasileiros.  É preciso explorar cada uma das colunas usando estatísticas e visualização dos dados em formato gráfico para um aprofundamento desse entendimento.

Tratamento de Dados: Operacional e Analítico

O tratamento de dados operacional está no contexto dos software tradicionais e o dado é tratado de forma individual, não pode ser alterado para um valor padrão. Enquanto, o tratamento de dados analítico, o dado não tem valor individual, o dado tem valor coletivo e contribui para o modelo.  Por exemplo, a data de nascimento de um cliente está faltando em um contexto operacional não podemos preencher com um valor da mediana, pois isso pode influenciar na lógica desse software que precisa do valor correto desse dado. Contudo, em um modelo de aprendizagem máquina esse dado contribui para o modelo como o todo e pode ser preenchido com a mediana para que todo conjunto de dados relacionado a esse cliente contribua para esse modelo.

O Processo de Limpeza e Tratamento de Dados

O tratamento de dados envolve uma série de etapas que visam corrigir e padronizar as informações coletadas. Dentre as principais atividades desse processo, destacam-se:

1. Remoção de Duplicidades

A presença de dados duplicados pode distorcer os resultados da análise, levando a conclusões errôneas. Por isso, é importante identificar e remover registros duplicados, garantindo a integridade dos dados. Para os iniciantes nesse área, considere cada registro como uma linha na sua tabela.

2. Correção de Erros

Erros de digitação, inconsistências de formatação e outros problemas similares podem comprometer a qualidade dos dados. É necessário realizar a correção desses erros, garantindo que as informações estejam corretas e coerentes. Por exemplo, um estado onde mora um cliente que ao invés de digitar RS, está como RT, que não existe.

3. Padronização dos Dados

Padronizar os dados é fundamental para garantir consistência e facilitar a análise. Isso envolve a uniformização de formatos, unidades de medida e categorias, de modo a tornar os dados comparáveis e interpretáveis. Por exemplo, dados do gênero pode estar escrito ora como "Feminino" ora apenas como "F".

4. Preenchimento de Dados Faltantes

Em alguns casos, os conjuntos de dados podem apresentar informações incompletas ou faltantes. Nesses casos, é necessário realizar o preenchimento desses dados, utilizando técnicas como interpolação ou estimativa. Por exemplo, a idade do cliente pode não estar preenchida, nesse caso, podemos usar a mediana.

5. Acerto de valores discrepantes (outliers)

É preciso avaliar também a existência de valores discrepantes ou outliers em seus dados, para isso, usa-se técnicas estatísticas para avaliar. Esses valores podem causar um enviesamento da análise, por isso, para que o conjunto de dados possa contribuir de forma colaborativa com seu modelo, é preciso substituir esses valores pela mediana, por exemplo. 

Conclusão

A limpeza e o tratamento de dados são etapas fundamentais para garantir a qualidade e a confiabilidade das análises de dados. Ao realizar essas atividades, é possível eliminar erros, inconsistências e duplicidades, tornando os dados mais confiáveis e facilitando a tomada de decisões embasadas em informações sólidas. Lembre-se que os dados dentro do contexto da análise de dados contribuem para modelo de forma coletiva, por isso, não tem problema substituir pela mediana ou moda dependendo do tipo de dado, numérico ou categórico, respectivamente.