Aan de slag
Installatie
pip install ceda-synth
Of lokaal vanuit de broncode:
git clone https://github.com/cedanl/ceda-synth
cd ceda-synth
uv sync
uv run ceda-synth app
De app opent automatisch in je browser. Gebeurt dat niet, open dan de URL die in de terminal verschijnt.
De app gebruiken
Stap 1 — Data uploaden
Start de app en sleep een CSV- of Parquet-bestand op het uploadveld. ceda-synth toont een preview van de eerste rijen en detecteert automatisch kolomtypes.
Geschikte data
De app werkt het best met tabellen van minimaal 500 rijen. Kleinere datasets leveren minder stabiele correlatieramingen op.
Stap 2 — Kolommen controleren
Na het uploaden zie je per kolom het gedetecteerde SDV-type (categorical, numerical, datetime, id). Pas dit aan als de detectie afwijkt.
Stap 3 — Synthetische data genereren
Kies het aantal gewenste rijen en klik Genereer. Het model traint op de achtergrond — bij grotere datasets kan dit enkele seconden duren.
Stap 4 — Validatierapport bekijken
De app toont per kolom:
- TV-afstand (categorisch) — hoe goed kloppen de verhoudingen? Onder
0.2is groen. - Wasserstein-afstand (numeriek) — hoe dicht liggen de verdelingen bij elkaar?
- Distributieplots echte vs. synthetische data
Stap 5 — Exporteren
Download de synthetische data als CSV. De app toont ook het bijbehorende SDV-codeblok om hetzelfde resultaat zelf te reproduceren.
CLI (geavanceerd)
Voor batchverwerking is er ook een CLI:
ceda-synth synthesize data.csv output.csv --rows 1000
ceda-synth validate data.csv output.csv