De mediaan berekenen met Python

Python is een veelgebruikte taal voor het analyseren en manipuleren van data. Het berekenen van de mediaan is een populaire handeling om te verrichten binnen de statistiek. Het achterhalen van de mediaan kan in Python op verschillende manieren. Wij leggen je de beste en snelste manieren uit.

Zo bereken je de mediaan

De mediaan is het middelste getal in een reeks getallen. Deze reeks getallen noemt men een ‘set’. Om de mediaan in een set te achterhalen doorloop je verschillende stappen.
Stap 1: Voor het vinden van de mediaan dien je de getallen uit een dataset eerst in chronologische volgorde te plaatsen. Voor de onderstaande dataset ziet dit er als volgt uit:

dataset = [4, 15, 15, 12, 20, 3, 7, 6]

Om de getallen uit de dataset op chronologische volgorde te zetten gebruiken we de sort() method. De sort() method rangschikt elementen binnen een bepaalde set oplopend of aflopend. Je kunt de method voor zowel getallen gebruiken waarbij je de getallen van hoog naar laag of van laag naar hoog kunt rangschikken. Deze method werkt trouwens ook op woorden.

dataset.sort() = [3, 4, 6, 7, 12, 15, 15, 20]

Stap 2: Vervolgens streept met aan weerszijde getallen weg totdat het middelste getal bereikt is. In het onderstaande voorbeeld zijn de afgestreepte getallen ter illustratie vervangen door een ‘X’. Toevallig blijven er in deze set 2 getallen over. In dit geval is de mediaan het gemiddelde van de 2 laatst overgebleven getallen. Waarbij (7 + 12) / 2 = 9.5. Wanneer er slechts 1 getal in het midden overblijft dan is dat getal dus de mediaan.

dataset = [X, X, X, 7, 12, X, X, X]

dataset = [4, 15, 15, 12, 20, 3, 7, 6]
lengte = len(dataset) 
dataset.sort() 
  
if lengte % 2 == 0: 
    mediaan1 = dataset[lengte//2] 
    mediaan2 = dataset[lengte//2 - 1] 
    mediaan = (mediaan1 + mediaan2)/2
else: 
    mediaan = dataset[n//2] 
print("De mediaan is: " + str(mediaan))

De mediaan berekenen met de Statistics Library

Een eenvoudige manier om de mediaan te herleiden is door gebruik te maken van de Statistics library. In deze library kun je gebruikmaken van de median functie. Door de dataset in de parameter mee te geven kun je de mediaan herleiden.

import statistics

dataset = [4, 15, 15, 12, 20, 3, 7, 6]
mediaan = statistics.median(dataset)
print("De mediaan is: " + str(mediaan))

Benieuwd naar meer populaire bewerkingen op een dataset? Lees hier over het vinden van het gemiddelde of de modus. Aan de slag gaan met echte datasets? Gebruik de gratis datasets op Nasadaq.com.