Como ler um arquivo CSV usando o Python

Nesse post, veremos a prática de como abrir um arquivo csv e algumas funções de manipulação desse arquivo usando a linguagem de programação Python para começarmos a fazer as primeiras interpretações sobre o arquivo de dados escolhido como exemplo. Vamos além e apresentamos os links para instalação do Jupyter-lab, documentação da biblioteca Pandas do Python, muito usada na manipulação e análise de dados.

ANÁLISE DE DADOSLIMPEZA E TRATAMENTO DOS DADOSPYTHON

Soraia Felício

4/15/20242 min read

white printing paper with numbers
white printing paper with numbers

Como ler um arquivo CSV usando o Python

A linguagem de programação Python é amplamente utilizada para análise e manipulação de dados, assim como, outras linguagens de programação e ferramentas como Excel. Aqui, apenas com alguns passos você irá ver como abrir um arquivo CSV para começar a fazer as suas interpretações e manipulações de dados. Veja a seguir como fazer isso:

Passo 1: Abra o Jupyter-lab

O Jupyter-lab auxilia no desenvolvimento de pequenos códigos-fontes em Python. Por isso, aconselho fortemente que instale essa ferramenta, caso não tenha. Ela facilita executar os códigos-fontes para análise de dados em Python. Nós partiremos do princípio que você já conhece essa ferramenta e já tenha ela instalada em sua máquina. Assim, o primeiro passo é abrir o Jupyter-lab.

De qualquer forma, a fim de ajudar a você nesse processo, o link a seguir mostra as instruções para instalação: https://jupyter.org/install

Passo 2: Importe a biblioteca Pandas do Python

Utilize o comando abaixo para importa a biblioteca "Pandas" do Python. Essa biblioteca oferece facilidade na manipulação e análise de dados. Segue o link para entendimento do Pandas (https://pandas.pydata.org/docs/).

Passo 3: Abra o arquivo CSV

Nesse passo, vou deixar aqui o link para um arquivo csv para esse exemplo (https://zenodo.org/records/7305616). O nome do arquivo é "produts.csv" e representa os produtos do carrefour.es, possui 10746 produtos (linhas) e 31 atributos (colunas). Utilize a função "read_csv" para realizar a abertura desse arquivo. Como nesse arquivo há uma separação utilizando ponto-e-vírgula, use a cláusula "sep" para informar isso e abrir o arquivo.  Para aprofundar ainda mais sobre essa função leia o link: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html 

Passo 4: Visualize os dados

A função "head" mostrada abaixo retorna as primeiras n linhas do objeto com base na posição. É útil para testar rapidamente o conteúdo de seu arquivo de dados. Você pode informar entre os parênteses a quantidade de linhas de seu arquivo de dados que você deseja que retorne. O padrão é retornar 5 linhas.  Mais detalhes sobre essa função leia https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html 

O resultado dessa leitura é mostrado na imagem abaixo e podemos verificar que nesse arquivo temos informações sobre produtos, como o identificador (id), nome do produto, código de barra com 12 dígitos (EAN), quantidade que o produto possui, classificação, etc. Assim, começamos nossa primeira interpretação sobre os dados que estamos trabalhando. 

import pandas as pd

dataset = pd.read_csv("products.csv",sep=";")

# retorna 5 linhas por padrão

dataset.head()

#retorna 10 linhas

dataset.head(10)