Cette section décrit comment configurer les attributs de modèle de données en fonction de pyspark.sql.StructField
.
Objets spss.datamodel.Role
Cette classe énumère les rôles valides pour chaque champ d'un modèle de données.
BOTH
: indique que ce champ peut être un antécédent ou une conséquence.
FREQWEIGHT
: indique que ce champ est à utiliser comme poids de fréquence ; n'est pas visible pour l'utilisateur.
INPUT
: indique que ce champ est un prédicteur ou un antécédent.
NONE
: indique que ce champ n'est pas utilisé directement lors de la modélisation.
TARGET
: indique que ce champ est une prédiction ou une conséquence.
PARTITION
: indique que ce champ identifie la partition de données.
RECORDID
: indique que ce champ contient l'ID d'enregistrement.
SPLIT
: indique que ce champ divise les données.
Objets spss.datamodel.Measure
Cette classe énumère les niveaux de mesure des champs dans un modèle de données.
UNKNOWN
: indique que le type de mesure est inconnu.
CONTINUOUS
: indique que le type de mesure est continu.
NOMINAL
: indique que le type de mesure est nominal.
FLAG
: indique que la valeur du champ est une parmi deux valeurs possibles.
DISCRETE
: indique que la valeur du champ doit être interprétée comme une valeur d'une collection de valeurs.
ORDINAL
: indique que le type de mesure est ordinal.
TYPELESS
: indique que le champ peut avoir toute valeur compatible avec son stockage.
Objets pyspark.sql.StructField
StructType
. Un objet StructField
comprend lui-même quatre champs :name (string)
: nom d'unStructField
dataType (pyspark.sql.DataType)
: type de données spécifiquenullable (bool)
: indique si oui ou non leStructField
peut contenir la valeurNone
metadata (dictionary)
: dictionnaire Python servant à stocker les attributs d'option
measure
: mot clé de l'attributmeasure
role
: mot clé de l'attributrole
displayLabel
: mot clé de l'attributlabel
from spss.datamodel.Role import Role
from spss.datamodel.Measure import Measure
_metadata = {}
_metadata['measure'] = Measure.TYPELESS
_metadata['role'] = Role.NONE
_metadata['displayLabel'] = "field label description"
StructField("userName", StringType(), nullable=False,
metadata=_metadata)