Methodologie
ceda-synth is een applicatielaag bovenop SDV (Synthetic Data Vault). De syntheselogica zit volledig in SDV — ceda-synth voegt een gebruiksvriendelijke interface en validatierapportage toe.
Synthesemodel: Gaussian Copula
Voor enkelvoudige tabellen gebruikt ceda-synth SDV's GaussianCopulaSynthesizer:
- Transformatie — elke kolom wordt via de empirische CDF naar een uniforme verdeling omgezet
- Correlatieschatting — de Spearman-correlatiematrix tussen kolommen wordt geschat
- Sampling — gecorreleerde steekproeven worden gegenereerd via Cholesky-decompositie
- Terugprojectie — de inverse CDF zet waarden terug naar de originele schaal
Dit model is stabiel, snel en goed interpreteerbaar — ideaal voor enkelvoudige onderwijstabellen.
Wanneer werkt het goed?
- Enkelvoudige tabellen met > 500 rijen
- Kolommen met relatief lineaire onderlinge verbanden
- Stationaire data (geen tijdsafhankelijkheid per rij)
Wanneer werkt het minder goed?
- Kleine datasets (< 500 rijen) — correlatieramingen worden instabiel
- Sterke niet-lineaire verbanden — Gaussian Copula mist complexe interacties
- Longitudinale data met studentpaden — gebruik hiervoor SDV's
PARSynthesizer(nog niet geïntegreerd in ceda-synth)
Relatie tot SDV
ceda-synth maakt SDV toegankelijk maar vervangt het niet. Voor maatwerk, complexe tabelrelaties of geavanceerde privacyvalidatie raden we aan direct met SDV te werken:
- SDV-documentatie
- SDV GitHub
- sdmetrics voor uitgebreide validatie