Ho documenti che contengono una quantità arbitraria di campi chiave / valore. Il valore può essere una primitiva o una lista.
Tutti i documenti hanno tutti uno stato associato (come passato, fallito, interrotto, ecc.).
Utilizzando i documenti completati come dati di allenamento in un algoritmo di apprendimento automatico, il mio obiettivo è di passare al sistema un documento incompleto e determinare il probabile esito. È più probabile che il documento incompleto al quale sto guardando passi, fallisca o si fermi?
Le informazioni identificative che sto cercando di confrontare qui sono per lo più chiavi uniche. Quindi un documento potrebbe avere un aspetto simile:
id: 1
keys_of_type_x: [x1, x2, x3, ..]
keys_of_type_y: [y1, y2, y3, ..]
key_z: "sample text field"
etc.
Non sono necessariamente alla ricerca di una risposta concreta, ma più di una spinta nella giusta direzione con informazioni su quale sia l'algoritmo più adatto per questo tipo di classificazione basata su più valori.