Methodologie¶
Deze sectie legt per model uit hoe het werkt, waarom deze keuze is gemaakt en wanneer je de output kritisch moet beoordelen.
Modellen in het ensemble¶
| Model | Pagina | Rol in de pipeline |
|---|---|---|
| SARIMA | SARIMA | Tijdreeksextrapolatie op basis van historische aanmeldpatronen |
| XGBoost classifier | XGBoost | Kans per individuele student dat deze zich inschrijft |
| XGBoost regressor | XGBoost | Vertaling van vooraanmelders naar verwachte inschrijvingen |
| Ratio-model | Ratio-model | Eenvoudige historische ratio als referentiemodel |
| Ensemble | Ensemble | Gewogen combinatie van bovenstaande modellen |
Datasporen¶
flowchart LR
SL["Studielink\ntelbestanden"] --> CUM["Cumulatief spoor\n(-d c)"]
SIS["Osiris / Usis\nper-student"] --> IND["Individueel spoor\n(-d i)"]
CUM & IND --> ENS["Ensemble\n(-d b)"]
De twee sporen zijn bewust onafhankelijk van elkaar ontworpen zodat instellingen die geen toegang hebben tot individuele aanmelddata toch een voorspelling kunnen maken via het cumulatieve spoor.
Aannames en beperkingen¶
- Het model extrapoleert op basis van historische patronen. Structurele breuken (bijv. nieuwe opleiding, COVID-jaar) worden niet automatisch gedetecteerd.
- Ensemble-gewichten worden bepaald op historische fouten; een model dat in het verleden goed presteerde krijgt meer gewicht, ook al is de situatie veranderd.
- De SARIMA-parameters zijn per opleiding gefixed. Bij opleidingen met weinig historische data is de modelfit minder betrouwbaar.
Dashboard-visualisatie¶
Na het opslaan van de resultaten genereert de pipeline een interactief Plotly-dashboard per modus. Het dashboard biedt grafieken per opleiding (voorspellingen, foutmaten, feature importance) en wordt opgeslagen als zelfstandig HTML-bestand onder data/output/visualisaties/. Zie Output begrijpen voor details.