Algoritmo ML foresta casuale adatto per l'HPC basato su cluster?

2

Ho bisogno di aiuto per identificare un algoritmo migliore.

Ho sviluppato uno script usando il pacchetto pythons scipy per analizzare un modello piuttosto grande che desidero risolvere. Il modello contiene oltre 12 GB di dati, inclusi oltre 500 parametri.

Il problema è che quando eseguo piccole simulazioni di circa 0,5 GB di dati con 20 parametri, il mio computer può impiegare una discreta quantità di tempo se consento un ragionevole numero di iterazioni attraverso il classificatore casuale delle foreste.

Attualmente il mio script usa solo un core, quindi penso che rendere lo script multi-threaded sarebbe il primo passo. Ma non credo che questo sarà sufficiente data la complessità del modello. Sono disposto a esplorare l'uso di una soluzione HPC basata su cluster, ma non sono sicuro su come procedere.

Ci sono algoritmi migliori che posso usare, o c'è un algoritmo basato su cluster che sarebbe più appropriato?

    
posta AEA 18.06.2014 - 06:40
fonte

1 risposta

1

È un po 'oscuro nella tua domanda se chiedi di come parallelizzare l'algoritmo di Random Forests ™ 1 , o chiedi a quale altro algoritmo eseguire meglio .

Sul primo numero, sembra che l'algoritmo di Random Forests ™ sia parallelo imbarazzante , e che esista un implementazione parallela dell'algoritmo all'interno di scikit-learn, utilizzando i cosiddetti metodi Ensemble . (Non perdere la sezione sulla parallelizzazione su quel documento).

Sulla seconda questione, l'opinione consolidata sembra essere che Random Forests ™ sia

one of the most successful ensemble methods which exhibits performance on the level of boosting and support vector machines. The method is fast, robust to noise, does not overfit and offers possibilities for explanation and visualization of its output.

come citato da Robnik-Šikonja, M. (2004). Migliorare le foreste casuali. In Machine Learning: ECML 2004 (pagine 359-370). Springer Berlin Heidelberg .

Quale, secondo me, sembra che dovresti attenersi a RF ™, quindi provare Adaboost , quindi provare SVM . Puoi trovarli anche su scikit: svm e adaboost .

1: Random Forests ™ è un marchio di Leo Breiman e Adele Cutler .

    
risposta data 20.06.2014 - 18:29
fonte

Leggi altre domande sui tag