Mi sembra che tu stia costruendo un classificatore di testo con un supervisore
fase di allenamento all'inizio, in cui si assegnano le etichette manualmente. Il tuo modello
sta funzionando bene (alta precisione e richiamo), quindi vuoi integrare il
modello di formazione iniziale con un processo di allenamento non supervisionato su nuovi input
stringhe.
Questi nuovi input avranno alcuni segnali noti (parole che hai già visto prima) così tuo
il modello può fare bene il suo lavoro, ma avranno anche segnali sconosciuti (parole voi
non ho visto prima). Vuoi che il tuo processo di allenamento non supervisionato associ quelle nuove parole a quelle conosciute, per "imparare". In questo modo, confidi che l'associazione tra la nuova parola e la parola conosciuta sia corretta. Perché
l'elaborazione del linguaggio è così difficile, probabilmente genererai un falso positivo
associazioni automaticamente che sarebbero state escluse / corrette in a
ambiente sorvegliato. Quindi, facendo l'apprendimento senza sorveglianza sei
rischiando di ridurre la precisione.
La tua domanda riguarda l'essere "sovraccaricata" con molti dati. Questa è una fiera
preoccupazione, e dipende molto dalla dimensione dei dati, dalla scelta dell'implementazione e
aspettative comportamentali del sistema. Mentre la reattività e la trattabilità di
occuparsi di grandi quantità di dati è una cosa, ritengo che la precisione
e il richiamo dell'algoritmo di etichettatura del sentiment è probabilmente il più grande
importanza.
Nel articolo che hai collegato l'autore ha un punteggio di confidenza che causa senza supervisione associazioni da considerare solo se c'è "alta fiducia". Questo è buono, ma c'è ancora il rischio che nel tempo la precisione generale cadrà. Il tuo sistema dovrebbe essere periodicamente valutato per precisione, richiamo e riqualificazione. L'esempio "Bad Santa" nei commenti è un buon esempio. Ti suggerisco di leggere la formazione semi-supervisionata e ottenere questa etichettatura direttamente su insiemi di dati di piccole dimensioni prima di affidarti a un set di dati molto più ampio. L'elaborazione della lingua è difficile!