Configuratie
Kolomtypes in de app
ceda-synth detecteert kolomtypes automatisch via SDV's detect_from_dataframe. In de UI kun je dit per kolom overschrijven:
| App-label | SDV-type | Gebruik voor |
|---|---|---|
| Categorisch | categorical |
Codes, geslacht, opleiding |
| Numeriek (geheel) | numerical |
Jaren, aantallen |
| Numeriek (decimaal) | numerical |
Cijfers, ratio's |
| Datum | datetime |
Datumkolommen |
| ID / vrije tekst | id |
Sleutels, studentnummers |
Primaire sleutel
Markeer een kolom als primaire sleutel als die unieke rij-identifiers bevat. SDV genereert dan nieuwe unieke waarden in plaats van bestaande te kopiƫren.
Geavanceerd: YAML-schema
Voor batchverwerking via de CLI kun je een schema-bestand meegeven:
name: naam_van_dataset
columns:
student_id:
dtype: string
role: primary_key
inschrijvingsjaar:
dtype: integer
min: 2015
max: 2024
geslacht:
dtype: categorical
categories: ["1", "2"]
ceda-synth synthesize data.csv output.csv --schema schema.yaml --rows 1000
Zonder --schema detecteert de CLI kolomtypes automatisch, net als de app.
Bekende schema's
Voorgeconfigureerde schema's voor CEDA-datasets (1CHO, CROHO) staan in schemas/ zodra ze beschikbaar zijn.