Aplicando a MODA na Ciência de Dados

Nesse post, vamos falar da MODA, mas não é a maneira como nos vestimos. A MODA (Most Often Data Analysis) que iremos tratar aqui está relacionado à estatística e se refere a frequência que um determinado valor aparece em um conjunto de dados. Vamos entender "POR QUE", "COMO" e "QUANDO" usamos essa medida tão importante da estatística dentro da ciência de dados.

ESTATÍSTICA

Soraia Felício

4/20/20243 min read

frequencia de figuras geometricas representando a moda em estatística
frequencia de figuras geometricas representando a moda em estatística

O que é MODA na estatística?

Em estatística, a MODA (Most Often Data Analysis)  pode ser amostral ou populacional. A moda amostral representa o valor que você ver com mais frequência em um conjunto de dados e é o que abordaremos nesse post. A moda populacional não trataremos aqui, mas ela está dentro de uma distribuição de probabilidade discreta ou contínua e é obtida a partir de função de massa ou densidade de probabilidade, deve ser entendida como o valor mais frequente assim como a amostral, que aparece nessa distribuição. A diferença é que estamos tratando de população ao invés de uma amostra.

Agora, vamos direto ao ponto, observe o conjunto de dados a seguir, chamado IDADE, com valores de várias idades. O valor que aparece com mais frequência é 33 anos, pois aparece 3 vezes. Então, a MODA do conjunto de dados desse exemplo IDADE é 33.

IDADE = {10, 20, 30, 31, 30, 31, 20, 33, 45, 33, 33, 45}

Por que usar MODA?

  1. Identificação de tendências: Ao identificar a moda de um conjunto de dados, é possível observar quais valores ocorrem com maior frequência. Isso pode indicar tendências e padrões nos dados, auxiliando na compreensão e interpretação dos mesmos.

  2. Centralidade: A moda é uma medida de centralidade, juntamente com a média e a mediana. Ela fornece um ponto de referência para entender onde a maioria dos valores se concentra. Por isso, muitos tutoriais tratam essas medidas fazendo comparações entre elas.

  3. Representatividade: A moda é uma forma de representar os dados de maneira resumida. Ela destaca o valor mais frequente, o que pode ser útil para comunicar informações de forma clara e concisa.

  4. Tomada de decisão: A moda pode influenciar a tomada de decisão, especialmente quando se trata de dados categóricos. Ao identificar a moda de um conjunto de dados, é possível tomar decisões informadas com base nas preferências ou comportamentos mais comuns.

Como a moda pode influenciar suas análises?

A moda pode influenciar suas análises de diferentes maneiras:

  • Identificação de outliers: Ao identificar a moda, é possível identificar valores que são considerados "fora do comum" ou discrepante ou outliers. Esses valores podem fornecer insights importantes sobre comportamentos atípicos ou eventos raros.

  • Segmentação de mercado: A moda pode ser usada para segmentar um mercado com base nas preferências mais comuns dos consumidores. Isso pode ser útil para direcionar estratégias de marketing e desenvolver produtos ou serviços que atendam às necessidades da maioria dos clientes.

Qual a diferença entre MODA, MEDIANA e MÉDIA?

A MODA não necessariamente é única como a média e a mediana. Ela pode ter mais de um resultado, caso mais de um valor apareça com a mesma quantidade de vezes em um conjunto de dados. Veja os exemplos abaixo:

1) Unimodal: um resultado para MODA. 

GÊNERO = {feminino, masculino, feminino, feminino}. A moda é feminino.

2) Bimodal: dois valores como resultado para MODA.

FRUTAS = {mirtilo, goiaba, maçã, banana, mirtilo, uva, mirtilo, morando, banana, maçã, banana}. A moda nesse conjunto de dados é mirtilo e banana.

3) Multimodal: mais de dois valores como resultado para MODA.

IDADE = {13, 9, 30, 31, 13, 9, 9, 33, 45, 33, 33, 13}. A moda é 9, 13 e 33.

4) Amodal:  nenhuma moda.

IDENTIFICADOR = {1, 2, 3, 4, 5, 6, 7, 8, 9, ...}

Quando usar a moda?

Utilize essa medida para descobrir quais dos seus produtos são mais vendidos ou quais as idades mais comuns que participam de um determinado conjunto de dados, entre outras situações.

Você pode utilizar essa medida também na limpeza e tratamento dos dados para substituir valores nulos pela moda em dados categóricos, por exemplo.

Suponha o conjunto de dados GÊNERO a seguir:

GÊNERO = {feminino, masculino, nulo, feminino}.

Você pode remover o valor nulo pela moda que nesse exemplo é feminino, pois aparece 2 vezes nesse conjunto de dados.

Importante ressaltar que a MODA pode ser muito útil em conjunto de dados não numéricos ou qualitativos. Além disso, ela é a única medida de centralidade que pode ser utilizada para dados em uma escala nominal.