Ga naar inhoud

Configuratie

Kolomtypes in de app

ceda-synth detecteert kolomtypes automatisch via SDV's detect_from_dataframe. In de UI kun je dit per kolom overschrijven:

App-label SDV-type Gebruik voor
Categorisch categorical Codes, geslacht, opleiding
Numeriek (geheel) numerical Jaren, aantallen
Numeriek (decimaal) numerical Cijfers, ratio's
Datum datetime Datumkolommen
ID / vrije tekst id Sleutels, studentnummers

Primaire sleutel

Markeer een kolom als primaire sleutel als die unieke rij-identifiers bevat. SDV genereert dan nieuwe unieke waarden in plaats van bestaande te kopiƫren.

Geavanceerd: YAML-schema

Voor batchverwerking via de CLI kun je een schema-bestand meegeven:

name: naam_van_dataset

columns:
  student_id:
    dtype: string
    role: primary_key
  inschrijvingsjaar:
    dtype: integer
    min: 2015
    max: 2024
  geslacht:
    dtype: categorical
    categories: ["1", "2"]
ceda-synth synthesize data.csv output.csv --schema schema.yaml --rows 1000

Zonder --schema detecteert de CLI kolomtypes automatisch, net als de app.

Bekende schema's

Voorgeconfigureerde schema's voor CEDA-datasets (1CHO, CROHO) staan in schemas/ zodra ze beschikbaar zijn.