Ho bisogno di aiuto per identificare un algoritmo migliore.
Ho sviluppato uno script usando il pacchetto pythons scipy per analizzare un modello piuttosto grande che desidero risolvere. Il modello contiene oltre 12 GB di dati, inclusi oltre 500 parametri.
Il problema è che quando eseguo piccole simulazioni di circa 0,5 GB di dati con 20 parametri, il mio computer può impiegare una discreta quantità di tempo se consento un ragionevole numero di iterazioni attraverso il classificatore casuale delle foreste.
Attualmente il mio script usa solo un core, quindi penso che rendere lo script multi-threaded sarebbe il primo passo. Ma non credo che questo sarà sufficiente data la complessità del modello. Sono disposto a esplorare l'uso di una soluzione HPC basata su cluster, ma non sono sicuro su come procedere.
Ci sono algoritmi migliori che posso usare, o c'è un algoritmo basato su cluster che sarebbe più appropriato?