Quale algoritmo di apprendimento automatico [s?] sarebbe applicabile qui?

2

Ho documenti che contengono una quantità arbitraria di campi chiave / valore. Il valore può essere una primitiva o una lista.

Tutti i documenti hanno tutti uno stato associato (come passato, fallito, interrotto, ecc.).

Utilizzando i documenti completati come dati di allenamento in un algoritmo di apprendimento automatico, il mio obiettivo è di passare al sistema un documento incompleto e determinare il probabile esito. È più probabile che il documento incompleto al quale sto guardando passi, fallisca o si fermi?

Le informazioni identificative che sto cercando di confrontare qui sono per lo più chiavi uniche. Quindi un documento potrebbe avere un aspetto simile:

id: 1
keys_of_type_x: [x1, x2, x3, ..]
keys_of_type_y: [y1, y2, y3, ..]
key_z: "sample text field"
etc.

Non sono necessariamente alla ricerca di una risposta concreta, ma più di una spinta nella giusta direzione con informazioni su quale sia l'algoritmo più adatto per questo tipo di classificazione basata su più valori.

    
posta Jared Williams 25.12.2011 - 06:10
fonte

1 risposta

1

In primo luogo, cerca di appiattire tutte le funzionalità nidificate in un'unica grande serie di funzioni e crea una mappatura dal testo a un numero reale, usando qualcosa come gli anonimi Naive.

Quindi sostituire le informazioni incomplete con qualche tipo di dati normalizzati e applicare la regressione logistica con la classificazione "1 contro tutti". Un'alternativa sarebbe utilizzare un approccio basato su albero decisionale come Random Forest in quanto tende a funzionare meglio con informazioni incomplete, dal momento che si utilizzerà solo un sottoinsieme casuale di funzionalità.

    
risposta data 25.12.2011 - 07:46
fonte

Leggi altre domande sui tag