My question is why do we need training/learning data to group
customers with similar online behaviors. I can simply do it based on
per-defined criteria like income-range/age/location/preference etc
Questa parte della tua domanda non è chiara. Per definizione l'apprendimento non supervisionato non utilizza i dati di allenamento.
Se hai conosciuto criteri che ti consentono di classificare i tuoi dati in categorie utili, dovresti utilizzarli e non preoccuparti dell'apprendimento automatico. Si utilizza l'apprendimento automatico senza supervisione quando si dispone di dati complessi e non si è sicuri di come, o anche se i dati rientrano in categorie. Ad esempio, se si dispone di una serie di dati di marketing sui clienti, potrebbe essere che guardare l'età o il codice postale è tutto ciò che serve per suddividerli in categorie utili. D'altra parte, può darsi che in realtà tu abbia bisogno di una complicata ponderazione dell'età, del codice postale e del tipo di cellulare che possiedono. Il punto principale è che semplicemente non hai conoscenze preesistenti su come raggruppare i tuoi clienti. L'apprendimento senza supervisione può indicarti le combinazioni di caratteristiche che spezzano i tuoi clienti in categorie distintive.
Similarly, semi supervised learning makes use of unlabeled data
(typically a large amount) for training, besides a small amount of
labeled. Not sure how how unlabeled data helps in labeling the given
input ?
Supponiamo di avere una serie di dati di marketing e ciò che vogliamo veramente è di rompere i nostri clienti in due categorie: cheapskates e big spenders. Un metodo completamente non supervisionato potrebbe rompere i nostri clienti in due categorie (o tre, o quattro, o cinque, ...), ma le categorie non corrispondono necessariamente a cheapskates e big spenders . Se inseriamo alcuni dati etichettati per i nostri clienti, identificandoli come cheapskates o big spenders, i dati etichettati possono essere utilizzati per modificare il nostro algoritmo di clustering, guidandolo a classificare i nostri clienti (anche quelli senza etichetta) nelle due classi desiderate. / p>
Si noti che i dati etichettati hanno due usi distinti nell'apprendimento automatico: formazione e convalida. Come ho scritto, l'apprendimento automatico senza supervisione non utilizza i dati di allenamento. Tuttavia, quasi sempre si vuole verificare che il proprio algoritmo stia facendo qualcosa di utile. Pertanto, indipendentemente dal fatto che tu stia utilizzando l'apprendimento non supervisionato, semi-supervisionato o supervisionato, è utile fornire una serie di dati etichettati ed eseguirlo attraverso il tuo sistema finale, per verificare che funzioni come desiderato.