Algoritmo per la creazione di gruppi di cluster su due criteri

2

Vorrei raggruppare una popolazione in base a due criteri. Userò un'analogia per semplificare la mia domanda.

Diciamo che voglio n numero di gruppi. Voglio popolare questi gruppi in base all'età e al peso della persona, in modo che tutti i gruppi contengano all'incirca la stessa età e siano distribuiti uniformemente in base al peso (in modo che ci siano circa lo stesso numero di persone pesanti e leggere in ciascun gruppo).

Che tipo di algoritmo posso utilizzare per automatizzare questo processo? C'è una semplice formula di Excel o qualche altro metodo?

Aggiorna

Ecco la motivazione per questa analisi statistica. Vorrei impostare il partizionamento in un database che avrà le migliori prestazioni. Ho bisogno di memorizzare molti dati raggruppati per contea. Non so in anticipo, quale sarebbe il miglior numero di partizioni. Le partizioni dovrebbero essere uniformi, in modo che contengano lo stesso numero di righe. Una partizione dovrebbe contenere righe di dati per una o più contee. Ogni contea sarà classificata in base alla frequenza e alla possibile quantità di aggiornamenti. Le partizioni dovrebbero essere costruite in modo tale che i dati di contea aggiornati di frequente siano distribuiti uniformemente.

Non sembra che ci sia un modo semplice per farlo. Quindi che tipo di algoritmo avrebbe funzionato per questo? Probabilmente non userei VBA per la codifica, invece molto probabilmente userei Perl per scrivere il programma per fare l'analisi. Esistono strumenti statistici pronti per questo tipo di analisi?

Permettimi di chiarire cosa intendo quando dico n numero di gruppi. Prenderò fondamentalmente un numero di gruppi (partizioni), collegandolo alla formula o allo strumento di analisi o al programma personalizzato. Quindi ripeterò il processo per un diverso numero di gruppi (partizioni) finché non troverò per tentativi ed errori il numero di partizioni che offre le migliori prestazioni.

Forse c'è un nome per questo tipo di analisi? Qualcosa che potrei provare a cercare tramite un motore di ricerca?

    
posta dabest1 13.04.2012 - 20:21
fonte

2 risposte

1

@ Anony-Mousse, solitamente (o meglio nella sua forma più semplice) "cluster analysis" è usato per costruire cluster di oggetti simili.

Suggerirei @ dabest1 di prendere in considerazione l'idea di biclustering - questo articolo di wikipedia sembra essere un po 'debole al momento del post.

Ho discusso di Biclustering in un altro post in CV .

Per aiutarti ulteriormente nella tua ricerca, ecco alcuni link che ti aiuteranno a iniziare a usare Biclustering dal post di cui sopra:

HTH!

    
risposta data 07.05.2012 - 10:37
fonte
2

Solitamente, il termine "analisi del cluster" si riferisce a gruppi di costruzione di oggetti simili .

Tuttavia, la tua intenzione sembra creare gruppi di diversi oggetti, in modo tale che ogni gruppo sia un campione rappresentativo dei tuoi dati e di dimensioni simili, giusto? Perché dovresti scegliere la somma di età per essere approssimativamente la stessa?

Analizza in modo definitivo le strategie di campionamento. Molto probabilmente ti troverai a rispondere lì che nel dominio di clustering. Perché di nuovo, il clustering di solito cerca di minimizzare la variazione all'interno di ogni gruppo .

    
risposta data 14.04.2012 - 08:05
fonte

Leggi altre domande sui tag