Dipende molto dal tipo di oggetti e persone nel tuo campione. Ci possono essere diversi modi per ottenere ciò che stai cercando, ma sto elencando un approccio che ho usato io in passato e quindi ho familiarità con un sacco di dettagli. Altri utenti potrebbero menzionare nuove tecniche innovative.
Mi riferirò all'attività di scegliere un oggetto come "acquisto" ma si può riferire a qualsiasi cosa - votando, odiando, ecc. Questo approccio è valido solo per oggetti che si associano allo stesso modo dell'acquirente (o del selezionatore, dell'utente ecc. ) psicologia. In tal caso, una matrice di preferenza / classificazione può essere un modo molto semplice e crudo per risolvere il problema. Ecco come funziona un simile approccio:
Passaggio 1: Raccolta dati
- Chiederei alle persone di contribuire con oggetti di loro gradimento con una valutazione in scala (diciamo su una scala di 10).
- Nella fase di "analisi" o "scoperta del gusto" suggerirai loro gli articoli che non hanno valutato e chiedi loro di valutarli.
- Inoltre, chiedi loro di raggruppare / taggare gli articoli in categorie predefinite.
Passaggio 2: analizza Correlazione e R-Squared delle tendenze di acquisto
Un esempio di matrice di classificazione oggetto-persona può essere simile a:
Object 1 Object 2 Object 3 . . . Object N
Person 1 6 4 4 10
Person 2 4 2 1 8
Person 3 8 9 10 1
.
.
.
Person N 3 4 9 2
Dovrai quindi eseguire una regressione su questa matrice per determinare le correlazioni e l'R-Squared tra le coppie oggetto-oggetto , coppie persona-oggetto e coppie persona-persona. Ripeti questa analisi con la matrice dell'oggetto-categoria e infine con la matrice categoria-persona.
Passaggio 3: Interpretazione
Se puoi dimostrare che le persone a cui piacciono A, B e C hanno anche un'alta probabilità (misurata rispetto ad altre probabilità), allora puoi supporre che anche a un'altra persona a cui piacciono A, B e C piacerà anche D con un'alta probabilità. In alcuni casi è anche possibile misurare i coefficienti di probabilità: è possibile che gli oggetti siano apprezzati / non graditi dato che un altro oggetto è piaciuto / non piace.
Nei casi in cui non è possibile stabilire una correlazione sufficiente tra i singoli oggetti, è possibile raggruppare / dividere gli oggetti in gerarchie o generi (film di fantascienza, cucina asiatica, abiti denim, orologi svizzeri ecc.) e ottenere statistiche di correlazione tra questi raggruppamenti più alti. È possibile continuare a gerarchizzare gli oggetti in raggruppamenti più ampi o più ristretti fino a ottenere correlazioni significative. Questo è il motivo per cui abbiamo raccolto anche informazioni sulle categorie sopra.
In molti altri casi, in cui non esistono correlazioni significative, dovrai fare affidamento sugli effetti di rete. Ad esempio, una persona A può tendere a seguire le scelte della persona B - indipendentemente dagli oggetti in questione. Non è necessario sapere se A è un amico / follower di una persona B. poiché i dati che hai raccolto prevedono comunque questo modello (se esiste).
insidie
- Piccola dimensione del campione (di utenti o oggetti). Vedi anche, legge dei grandi numeri .
- Interpretazione errata della correlazione come indicatore di previsione futura --uso entrambi R-quadrato e correlazione per calcolare le probabilità.
- Errata classificazione del problema --sort di ovvio. Qui ho assunto che gli oggetti si associno in modo simile alla psicologia dell'acquirente - se non è così, questo approccio potrebbe non funzionare.