Machine Learning con dati categoriali e continui

9

Questa domanda potrebbe andare qui o su S.O. forse ...

Supponiamo che il set di dati di addestramento contenga dati sia categoriali che continui come questa impostazione:

 Animal, breed,  sex, age, weight, blood_pressure, annual_cost
 cat,    calico, M,   10,  15    ,   100         , 100 
 cat,    tabby,  F,   5,   10    ,   80          , 200
 dog,    beagle, M,   3,   30    ,   90          , 200
 dog,    lab,    F,   8,   75    ,   80          , 100

E la variabile dipendente da prevedere è il costo annuale del veterinario. Sono un po 'confuso riguardo alle tecniche specifiche disponibili per gestire un set di dati di questo tipo. Quali sono i metodi comunemente usati per trattare i set di dati che sono una combinazione di dati sia continui che categoriali?

    
posta reptilicus 15.01.2013 - 22:23
fonte

2 risposte

8

Per ogni classe (razza, genere ...) degli attributi categoriali, puoi aggiungere un numero di componenti al tuo vettore di funzionalità uguale al numero di valori possibili in quella classe. Quindi, se un punto dati ha il valore ith, si imposta a 1 uno di questi componenti, mentre il resto per quell'attributo a 0.

Nel tuo esempio, per genere, devi aggiungere due nuovi componenti al tuo vettore di funzionalità. Se l'animale è maschio, devi impostare il primo a 1 e il secondo a 0 e viceversa se l'animale è femmina. Per gli animali, se le tue possibilità fossero gatto, cane e pesce, allora dovresti fare lo stesso con tre componenti.

Questi coesisteranno fianco a fianco con gli attributi continui. Potresti voler regolare la grandezza del "valore dell'indicatore" (il valore che usi quando un attributo è "attivo") in modo che sia paragonabile alle grandezze dei valori continui che stai usando, però.

Se hai scelto questo modo di affrontare il tuo problema, il prossimo passo sarebbe scegliere un algoritmo come una macchina vettoriale di supporto e alimentarlo con il tuo vettore di funzionalità. Certo, alcuni approcci come Decision Trees non avrebbero bisogno del passo che ho menzionato sopra per cominciare.

    
risposta data 15.01.2013 - 23:05
fonte
2

Dovresti dare un'occhiata a pre-elaborazione dei dati . È precedente a qualsiasi tecnica di apprendimento automatico. Qui è una buona introduzione (trovata su Google).

Per quanto riguarda le tecniche, ci sono molti diversi approcci . Probabilmente puoi usarne la maggior parte dopo aver pre-elaborato i tuoi dati. Dovresti provarli e scegliere quello più adatto alle tue esigenze.

    
risposta data 15.01.2013 - 22:57
fonte

Leggi altre domande sui tag