Methodologie

ceda-synth is een applicatielaag bovenop SDV (Synthetic Data Vault). De syntheselogica zit volledig in SDV — ceda-synth voegt een gebruiksvriendelijke interface en validatierapportage toe.

Synthesemodel: Gaussian Copula

Voor enkelvoudige tabellen gebruikt ceda-synth SDV's GaussianCopulaSynthesizer:

Transformatie — elke kolom wordt via de empirische CDF naar een uniforme verdeling omgezet
Correlatieschatting — de Spearman-correlatiematrix tussen kolommen wordt geschat
Sampling — gecorreleerde steekproeven worden gegenereerd via Cholesky-decompositie
Terugprojectie — de inverse CDF zet waarden terug naar de originele schaal

Dit model is stabiel, snel en goed interpreteerbaar — ideaal voor enkelvoudige onderwijstabellen.

Wanneer werkt het goed?

Enkelvoudige tabellen met > 500 rijen
Kolommen met relatief lineaire onderlinge verbanden
Stationaire data (geen tijdsafhankelijkheid per rij)

Wanneer werkt het minder goed?

Kleine datasets (< 500 rijen) — correlatieramingen worden instabiel
Sterke niet-lineaire verbanden — Gaussian Copula mist complexe interacties
Longitudinale data met studentpaden — gebruik hiervoor SDV's PARSynthesizer (nog niet geïntegreerd in ceda-synth)

Relatie tot SDV

ceda-synth maakt SDV toegankelijk maar vervangt het niet. Voor maatwerk, complexe tabelrelaties of geavanceerde privacyvalidatie raden we aan direct met SDV te werken:

SDV-documentatie
SDV GitHub
sdmetrics voor uitgebreide validatie