Medidas de tendência central

Esse artigo é o segundo de uma série sobre conceitos (bem) básicos de estatística aplicada a ciência de dados. Nesse são apresentadas medidas de tendência central, especificamente média, moda e mediana.

No artigo anterior falamos sobre o conceito de estatística descritiva, distribuição estatística e o contexto dos dados que estão sendo utilizados nos exemplos. Talvez, lê-lo te ajude a entender sobre as medidas de tendência central que vamos apresentar aqui.

Conceito

Algumas das principais medidas usadas em estatística são as medidas de tendência central, que servem para representar o centro de um conjunto de dados. É aquele valor que se aproxima da maior parte dos dados.

Sabe quando você olha para um grupo de pessoas e pensa “esse povo tem mais ou menos 20 anos?” Pronto, 20 anos é a medida de tendência central que você identificou. Em ciência de dados as mais utilizadas são: média, mediana e moda.

Moda

A moda é o valor que mais se repete em um conjunto de dados. Das três medidas que vamos falar nesse artigo, ela é a única que pode ser usada em dados não numéricos (o que chamamos de dados qualitativos).

No conjunto de dados de candidaturas para a Câmara dos Vereadores de Recife em 2020 existe uma coluna com a idade que as candidatas teriam no dia da sua posse, chamada NR_IDADE_DATA_POSSE. Vamos usá-la para descobrir a idade que mais se repete:

Fonte: Notebook “Estatística básica para Ciência de Dados”

Percebemos que a moda dessa coluna é  51.

Média

Outra medida de tendência central é a média, que é a soma de todos os valores do conjunto de dados, dividido pela quantidade de valores do conjunto. Vou desenhar pra ficar mais fácil. Imagina esse conjunto de dados:

  • Os elementos são: 7, 2 e 3.
  • A quantidade de valores desse conjunto é 3.
\[\frac{7+2+3}{3} = 4\]
  • Então, a média é 4.

Mas, a menos que você queira fazer esse cálculo na mão (o que não recomendo), podemos descobrir a média usando uma função do Pandas.

Fonte: Notebook “Estatística básica para Ciência de Dados”

Observamos que a idade média que as candidatas teriam no dia da posse é de 47,9 anos, o que também corresponde ao ponto mais alto do gráfico de distribuição que vimos no artigo anterior.

Mediana

A última medida de tendência central que vamos conversar é a mediana. Ela é o valor que ocupa a posição central do conjunto de dados, após a ordenação dos valores de forma crescente. Isso quer dizer que, após a ordenação dos valores, aquele localizado exatamente no meio dessa lista é a mediana. O que significa que 50% dos valores são menores do que ela e 50% são maiores.

Por exemplo, no nosso conjunto de dados de pessoas candidatas, a mediana da coluna NR_IDADE_DATA_POSSE significa que metade das pessoas candidatas são mais jovens e metade mais velhas do que o valor apresentado na mediana.

Fonte: Notebook “Estatística básica para Ciência de Dados”

A mediana desse conjunto é 48 anos.

Quando a quantidade de valores do conjunto de dados é par, a mediana é a média entre os dois valores que estão no centro da ordenação.

Vocês perceberam que os valores da média, moda e mediana são muito próximos? Isso acontece porque a distribuição desses dados é normal simétrica. Nesse caso, qualquer uma das medidas (médica, moda e mediana) poderia ser escolhida para representar o centro dessa distribuição, ou seja, a idade que a maior parte das candidaturas teriam no dia da sua posse.

A escolha nem sempre é fácil assim, pois cada uma dessas medidas tem seus prós e contras, por exemplo a média é muito afetada por valores discrepantes, então seu uso é recomendado para conjuntos de dados com valores mais uniformes. Algo que nos ajuda na escolha de qual medida de tendência central usar são as medidas de dispersão, assunto do próximo artigo.

Ainda que tu não tenha entendido nada do que escrevi aqui, sugiro que sigas lendo a série até o final, pois os assuntos se complementam e vão ajudar que na tua próxima tentativa de estudo o tema faça um pouquinho mais de sentido.

Se assistir vídeo aula te ajudar, dá uma olhadinha nessa sobre conceitos de estatística básica para ciência de dados, que fiz para a Sprint de Dados da PrograMaria.

Continue estudando

Outros artigos da série

Recomendações gerais

Ana Cecília Vieira Analista de dados especializada em qualidade de dados. Entusiasta em dados abertos, código aberto e comunidades autogestinadas como instrumento para transformação social. Embaixadora do programa 'Ciência de Dados para Inovação Cívica' da Open Knowledge Brasil e podcaster no Pizza de Dados.

-----

Leia também: