Inizio del data mining

1

Per semplicità, il mio database ha entità e transazioni. Ogni transazione ha un DateCreated e una chiave esterna per l'entità. Mi piacerebbe avere la possibilità di trovare entità che hanno avuto un numero ricorrente di transazioni in stretta prossimità temporale di altre entità.

Semplicemente, se l'entità A ha avuto una transazione entro 10 minuti dall'entità B, 5 volte diverse.

Più faccio ricerche su questo argomento, più sto diventando confuso.

Ho esaminato gli Algoritmi di data mining e il loro tutorial di data mining di AdventureWorks. Io penso ho bisogno di un approccio di clustering.

Per lo più sto cercando una guida su come si avvicina tipicamente questo tipo di problema. Alla fine, il mio obiettivo è consentire all'utente di selezionare X minuti e occorrenze Y e visualizzare i dati dei risultati su di essi. Se posso offrire ulteriori informazioni per favore fatemelo sapere.

    
posta Jonesopolis 17.03.2014 - 16:25
fonte

1 risposta

1

Tratterei la colonna DateCreated dall'entità A e l'entità B come una chiave esterna a un'altra tabella che memorizza i conteggi di A e B per tali date. Puoi rilasciare i secondi per quella chiave esterna.

Puoi quindi usare quella tabella per trovare tutti i record A dell'entità che hanno record di entità B entro X minuti l'uno dall'altro. Lo farebbe usando un JOIN dalla tabella A dell'entità alla tabella dei conteggi delle date estranee.

Difficile da spiegare ulteriormente senza vedere effettivamente lo schema delle tabelle.

    
risposta data 17.03.2014 - 16:53
fonte

Leggi altre domande sui tag