Data analyseren met Pandas: een inleiding tot deze handige Python-bibliotheek

andas is een open-source softwarebibliotheek voor de programmeertaal Python die wordt gebruikt voor het analyseren en bewerken van gegevens. Pandas biedt handige datastructuren en -functies voor het manipuleren van gestructureerde gegevens, zoals tabellen en tijdreeksen. Het is een essentieel instrument voor data-analyse en wordt veel gebruikt in de wetenschap, financiën, sociale wetenschappen en vele andere gebieden.

Als je Pandas op je Macbook wilt installeren, zijn er verschillende manieren om dat te doen. Eén manier is door het te installeren met pip, dat is een package manager voor Python. Hier zijn de stappen die je moet volgen:

  1. Open de Terminal-app op je Macbook.
  2. Typ het commando pip install pandas en druk op Enter.
  3. Wacht tot de installatie is voltooid.

Nu je Pandas hebt geïnstalleerd, kun je het importeren in Python en beginnen met het gebruik ervan. Hier zijn twee voorbeelden van hoe je Pandas kunt gebruiken om gegevens te analyseren:

Voorbeeld 1: Het lezen van een CSV-bestand en het weergeven van de eerste vijf rijen

import pandas as pd

data = pd.read_csv('bestandsnaam.csv')
print(data.head())

Dit voorbeeld importeert de Pandas-bibliotheek en leest een CSV-bestand in met de naam “bestandsnaam.csv”. Vervolgens gebruikt het de head() functie om de eerste vijf rijen van de gegevens te laten zien.

Voorbeeld 2: Het selecteren van bepaalde kolommen van een dataset

import pandas as pd

data = pd.read_csv('bestandsnaam.csv')
selected_data = data[['kolomnaam1', 'kolomnaam2']]
print(selected_data.head())

Dit voorbeeld importeert de Pandas-bibliotheek en leest een CSV-bestand in met de naam “bestandsnaam.csv”. Vervolgens gebruikt het de [['kolomnaam1', 'kolomnaam2']] notatie om de kolommen “kolomnaam1” en “kolomnaam2” te selecteren. Tot slot gebruikt het de head() functie om de eerste vijf rijen van de geselecteerde gegevens te laten zien.

Voorbeeld 3: Het groeperen en samenvatten van gegevens uit een dataset

Dit voorbeeld leest een CSV-bestand “sales.csv” in met verkoopgegevens van verschillende productcategorieën.

productcategorieproductnaamverkoopprijseenhedenverkocht
ElektronicaSmartphone699100
KledingT-shirt20500
SieradenArmband50250
ElektronicaLaptop149950
KledingJas100200
(De vijf eerste rijen uit de dataset)
import pandas as pd

data = pd.read_csv('sales.csv')

# Groepeer de gegevens op basis van de productcategorie en bereken de gemiddelde verkoopprijs en het totale aantal verkochte eenheden per categorie
grouped_data = data.groupby('productcategorie').agg({'verkoopprijs': 'mean', 'eenhedenverkocht': 'sum'})

# Sorteer de gegevens op basis van de gemiddelde verkoopprijs in aflopende volgorde
sorted_data = grouped_data.sort_values(by='verkoopprijs', ascending=False)

# Toon de top vijf categorieën met de hoogste gemiddelde verkoopprijs en het totale aantal verkochte eenheden per categorie
print(sorted_data.head())

Het groepeert de gegevens op basis van de productcategorie en berekent vervolgens de gemiddelde verkoopprijs en het totale aantal verkochte eenheden per categorie. Het resultaat is een nieuw dataframe grouped_data. Het volgende deel sorteert de gegevens op basis van de gemiddelde verkoopprijs in aflopende volgorde, resulterend in een nieuw dataframe sorted_data.

Tot slot wordt de top vijf categorieën met de hoogste gemiddelde verkoopprijs en het totale aantal verkochte eenheden per categorie weergegeven met behulp van de head() functie.Dit voorbeeld toont hoe krachtig Pandas kan zijn voor het groeperen en samenvatten van gegevens uit grote datasets.

Met deze voorbeelden kun je aan de slag met Pandas en beginnen met het analyseren en bewerken van je eigen gegevens!

Meer leren over de basics van Pandas? Bekijk dan deze officiële handleiding op Pydata.org.