Machine Learning con set di dati di esempio

3

Ho una domanda riguardante l'apprendimento automatico in generale. Considera il seguente scenario:

Dato un pezzo di testo, vogliamo che un programma sappia se il testo è "offensivo" o meno.

Per fare ciò possiamo dare al programma 1000 campioni di testo e contrassegnare manualmente quali sono positivi e quali sono negativi. Il programma studia questi e registra quali parole / modelli sono comuni nei testi abusivi. Diamo poi un altro 1000 testi non marcati, e riesce a identificare il 95% di questi correttamente usando i modelli appresi dal 1000 originale.

Va bene, ma che dire dopo che il software 'diventa disponibile'? Cioè, lo lasciamo per estrarre altri 1000 testi ogni giorno e rimane da determinare se sono abusivi o meno per conto proprio. Si potrebbe pensare che sarebbe una buona idea continuare a riconoscere parole / schemi nel tentativo di "imparare" sempre di più ogni giorno? Ma il problema qui è che non sappiamo con certezza se il programma identifichi correttamente ciascun testo. Quindi, se contrassegna un testo pulito come offensivo, registrerà erroneamente parole / pattern come abusivi. Questo farà sì che l'intelligenza del programma diventi sempre più scorretta e fuori strada.

Qual è l'approccio generale al problema precedente?

    
posta FBryant87 18.03.2013 - 15:01
fonte

1 risposta

7

Solitamente, tali filtri sono programmati per emettere non solo un valore sì / no per ciascun campione, ma piuttosto una probabilità: un campione può, ad esempio, essere segnalato come il 95% probabilmente abusivo. Quindi stabilisci due soglie, per dividere i risultati in tre gruppi: molto improbabile che sia abusivo, molto probabilmente abusivo e incerto.

Ad esempio, potresti considerare le probabilità tra il 20% e l'80% incerto, e quelle potrebbero contenere, ad esempio, il 10% dei tuoi campioni. Prendi questi campioni, chiedi a qualcuno di classificarli manualmente e riporta i risultati al sistema come dati di allenamento (questo è esattamente ciò che fanno i tipici filtri antispam dell'e-mail bayesiani quando contrassegni manualmente qualcosa come spam o ham).

Nel tempo, questo aumenterà la precisione delle previsioni, quindi il numero di campioni nella categoria "incerta" diminuirà. Se lo desideri, ora puoi rendere le soglie più rigide, ad esempio, 5% e 95%.

    
risposta data 18.03.2013 - 16:26
fonte

Leggi altre domande sui tag