Rilevamento e gestione di linguaggio osceno nell'input dell'utente

0

Ho visto alcuni "sistemi di chat" dannatamente restrittivi nei giochi per bambini, che rendono quasi impossibile ricevere gran parte del messaggio durante la digitazione.

Quindi, ho esaminato alcune idee, e là dove due principali, la lista bianca e la lista nera:

  • Parole in white list sono le uniche parole che puoi utilizzare.
    • Certo linguaggio sicuro senza dubbio.
    • Conversazione molto ristretta.
    • Grandi dati necessari per conversazioni più libere.
  • Parole in blacklist sono le uniche parole che non puoi usare.
    • Rilevamento facile di parole specifiche.
    • Potrebbe non essere un elenco completo.
    • Non si occupa di 5tr4n9e w4y5 0f typ1n9.

Chiaramente, la lista bianca non è la strada da percorrere per una conversazione facile e libera, ma la lista nera potrebbe essere facilmente aggirata.

Inoltre, come dovrebbero essere trattate le parole non autorizzate? Ad esempio, se dovessi inviare la stringa "You're truly elucidating!" alla whitelist, che probabilmente non avrebbe una parola benigna ma molto complessa come chiarire nel suo database, e trasmetterà invece "You're truly ***********! , Dubito che molte persone lo considererebbero un complimento. La lista nera ha un problema simile - dovrei cancellare parole maledette o semplicemente impedire che un tale messaggio venga inviato?

Quindi: quale metodo dovrei utilizzare per rilevare e gestire la lingua obcene nell'input dell'utente senza limitare la conversazione, ma mantenendo le cose al sicuro al 100%?

Come nota a margine, un'API per un dizionario che contrassegna un linguaggio osceno sarebbe utile sia per una lista bianca che per una lista nera.

    
posta AJFarmar 17.05.2015 - 16:40
fonte

2 risposte

6

Non esiste una soluzione tecnica a questo problema.

Da articolo di Jeff Atwood :

I'm doubtful it will ever be possible to solve this particular problem through code alone.

Se un utente vuole davvero usare parolacce nei messaggi, lo raggiungerà comunque se l'unico filtro è un programma.

  • "Fanculo" è una parola proibita? OK, proveremo "f * uck": ancora comprensibile, ma più difficile da catturare per un'applicazione.

  • Ancora preso? Che dire di "

risposta data 17.05.2015 - 17:23
fonte
1

Ho sentito grandi cose sulle API di profanità di WebPurify. Non è gratuito, ma ha una cosa sul loro sito web in cui è possibile digitare testo di esempio e vedere se rileva qualcosa:

link

Ho appena inserito f-u-c-k e ho rilevato parolacce, quindi è un buon segno ...

    
risposta data 17.05.2015 - 20:59
fonte

Leggi altre domande sui tag