Studentprognose¶
Studentprognose is een open-source tool van CEDA/Npuls voor het voorspellen van eerstejaars instroom in het hoger onderwijs. Het combineert tijdreeksmodellen (SARIMA), machine learning (XGBoost) en een ratio-model tot een ensemble-voorspelling.
Voor wie is deze documentatie?¶
Deze documentatie richt zich op data-analisten en onderzoekers bij Nederlandse onderwijsinstellingen. De focus ligt niet alleen op hoe je de tool gebruikt, maar ook op waarom het model werkt zoals het werkt — inclusief aannames, beperkingen en situaties waarin je de output kritisch moet interpreteren.
Snelstart¶
Vereisten: Python 3.12+ (installatie-instructies)
Heb je uv nog niet, of werk je liever met pip? Zie Aan de slag → Installatie.
Daarna:
studentprognose init # mapstructuur + configuratie aanmaken
studentprognose --help # alle opties bekijken
Zie Aan de slag voor een complete walkthrough inclusief data klaarzetten en je eerste run.
Heb je al verwerkte data?
Als je verwerkte bestanden hebt die voldoen aan het verwachte schema (kolommen, types, namen), kun je de ETL overslaan met --noetl. Zie ETL overslaan voor de exacte vereisten.
Architectuur op hoofdlijnen¶
Het model kent drie verwerkingssporen, afhankelijk van de beschikbare data:
| Modus | Vlag | Databron | Modellen |
|---|---|---|---|
| Cumulatief | -d c |
Studielink telbestanden | SARIMA + XGBoost regressor |
| Individueel | -d i |
Osiris/Usis per-student | XGBoost classifier + SARIMA |
| Beide | -d b |
Beide bronnen (standaard) | Volledig ensemble |
Zie Methodologie voor een diepgaande uitleg per model.
Uitgebreide voorbeelden — Jupyter notebooks¶
Naast deze documentatie staan in notebooks/ zeven uitvoerbare Jupyter-notebooks die de methodologie-pagina's stap-voor-stap doorlopen op de meegeleverde demodata:
00_overzicht.ipynb— pipeline in vijf minuten01_data_voorbereiden.ipynb— data laden en valideren02_sarima.ipynbt/m06_output_interpreteren.ipynb— een notebook per model + outputuitleg
Ze zijn bedoeld voor data-analisten en onderzoekers die niet alleen willen lezen maar ook willen experimenteren met parameters, peilweken en opleidingen. Zie notebooks/README.md voor de installatie- en draai-instructies.
In de praktijk¶
Dit model is oorspronkelijk ontwikkeld door Radboud Universiteit en vervolgens samen met CEDA open source gemaakt zodat andere Nederlandse onderwijsinstellingen er ook van kunnen profiteren. Radboud is daarmee de grondlegger van dit project. VOX Nijmegen schreef hierover: De universiteit heeft nu haar eigen glazen bol.
Verhouding tot de Radboud-implementatie
De productie-implementatie van Radboud draait intern en is niet publiek toegankelijk. Deze CEDA-versie is de publieke, generieke variant: dezelfde methodologie, maar zonder Radboud-specifieke configuratie.
- Uitlegbaarheid — methodologische keuzes (features, modelparameters, ensemble-gewichten) zijn onderbouwd vanuit een concrete instellingscontext en hier gedocumenteerd.
- Overdraagbaarheid — Radboud-specifieke logica is in deze versie generiek gemaakt zodat andere instellingen er direct mee aan de slag kunnen.