Dati di addestramento nell'apprendimento non supervisionato?

-1

L'apprendimento senza supervisione (USL) riguarda l'apprendimento / costruzione dell'algoritmo per trovare il modello di dati nascosti basato su dati di addestramento senza regole aziendali hard coded come la somma aritmetica, ecc.

Esempio di USL raggruppa i clienti con comportamenti online simili per una campagna di marketing.

La mia domanda è perché abbiamo bisogno di formazione / apprendimento dei dati per raggruppare i clienti con comportamenti online simili. Posso semplicemente farlo basandomi su criteri predefiniti come fascia di reddito, età, posizione, preferenza, ecc.

Allo stesso modo, l'apprendimento semi-supervisionato si avvale di dati non etichettati (in genere una grande quantità) per l'allenamento, oltre a una piccola quantità di etichette. Non sono sicuro in che modo il modo in cui i dati senza etichetta aiutano nell'etichettare l'input dato?

    
posta user3198603 01.04.2018 - 14:28
fonte

1 risposta

0

My question is why do we need training/learning data to group customers with similar online behaviors. I can simply do it based on per-defined criteria like income-range/age/location/preference etc

Questa parte della tua domanda non è chiara. Per definizione l'apprendimento non supervisionato non utilizza i dati di allenamento.

Se hai conosciuto criteri che ti consentono di classificare i tuoi dati in categorie utili, dovresti utilizzarli e non preoccuparti dell'apprendimento automatico. Si utilizza l'apprendimento automatico senza supervisione quando si dispone di dati complessi e non si è sicuri di come, o anche se i dati rientrano in categorie. Ad esempio, se si dispone di una serie di dati di marketing sui clienti, potrebbe essere che guardare l'età o il codice postale è tutto ciò che serve per suddividerli in categorie utili. D'altra parte, può darsi che in realtà tu abbia bisogno di una complicata ponderazione dell'età, del codice postale e del tipo di cellulare che possiedono. Il punto principale è che semplicemente non hai conoscenze preesistenti su come raggruppare i tuoi clienti. L'apprendimento senza supervisione può indicarti le combinazioni di caratteristiche che spezzano i tuoi clienti in categorie distintive.

Similarly, semi supervised learning makes use of unlabeled data (typically a large amount) for training, besides a small amount of labeled. Not sure how how unlabeled data helps in labeling the given input ?

Supponiamo di avere una serie di dati di marketing e ciò che vogliamo veramente è di rompere i nostri clienti in due categorie: cheapskates e big spenders. Un metodo completamente non supervisionato potrebbe rompere i nostri clienti in due categorie (o tre, o quattro, o cinque, ...), ma le categorie non corrispondono necessariamente a cheapskates e big spenders . Se inseriamo alcuni dati etichettati per i nostri clienti, identificandoli come cheapskates o big spenders, i dati etichettati possono essere utilizzati per modificare il nostro algoritmo di clustering, guidandolo a classificare i nostri clienti (anche quelli senza etichetta) nelle due classi desiderate. / p>

Si noti che i dati etichettati hanno due usi distinti nell'apprendimento automatico: formazione e convalida. Come ho scritto, l'apprendimento automatico senza supervisione non utilizza i dati di allenamento. Tuttavia, quasi sempre si vuole verificare che il proprio algoritmo stia facendo qualcosa di utile. Pertanto, indipendentemente dal fatto che tu stia utilizzando l'apprendimento non supervisionato, semi-supervisionato o supervisionato, è utile fornire una serie di dati etichettati ed eseguirlo attraverso il tuo sistema finale, per verificare che funzioni come desiderato.

    
risposta data 01.04.2018 - 19:27
fonte

Leggi altre domande sui tag