Quanto sono avanzati i metodi di riconoscimento degli autori?

5

Da un testo scritto di un autore se un programma di computer analizza il testo, quanto può oggi dire un programma per computer all'autore di alcuni testi (abbastanza lunghi da essere statisticamente significativi)?

Può il programma per computer dire anche con "certezza" se un uomo o una donna ha scritto questo testo basandosi esclusivamente sul contenuto del testo e non su un'indagine come numeri ip, ecc.?

Sono interessato a sapere se ci sono algoritmi in uso per esempio per sapere automaticamente se un autore è maschio o femmina o caratteristiche simili di un autore che un programma per computer può decidere in base alle analisi del testo scritto di un autore.

Potrebbe essere utile sapere prima di leggere un messaggio che cosa dice un computer sull'autore, sei d'accordo? Se per esempio ricevo un messaggio più lungo da mia moglie che lei abbia avuto un incidente in Nigeria e il programma informatico dice che con una probabilità del 99% il messaggio è stato scritto da un autore maschile di sessantanove anni non di origine caucasica o allo stesso modo, o qualcuno che non è mia moglie, allora il programma per computer potrebbe aiutarmi a capire perché un determinato messaggio differisce nelle caratteristiche.

Potrebbero esserci anche altri usi, ad esempio solo la rilevazione di valori anomali in un set di dati più grande geograficamente o demograficamente limitato.

Il rilevamento delle truffe è l'uso ovvio a cui sto pensando, ma potrebbero esserci anche altri usi. Esistono già programmi che analizzano un testo scritto per raccontare qualcosa sull'autore in base alla scelta delle parole, all'uso di pronomi, all'uso insolito della lingua o allo stesso modo?

    
posta Niklas Rosencrantz 29.06.2013 - 07:26
fonte

1 risposta

5

Sì, ci sono, e no, non funzionano molto bene.

Dedurre le informazioni sull'autore da un testo è una sottodisciplina dell'elaborazione del linguaggio naturale - la maggior parte delle applicazioni di PNL riguarda l'estrazione di informazioni sul contenuto di un testo piuttosto che sull'autore , ma gli obiettivi, i metodi e lo stato dell'arte sono in realtà piuttosto simili (attualmente ciò favorisce le cose come: n = -gram counts, maximum-entropy classificators ecc.). Alla fine, comprendere un testo e comprenderne l'autore sono entrambe piccole parti del vecchio sogno dell'informatica, l'intelligenza artificiale. Come molti dei problemi nell'IA, entrambi si sono rivelati molto, molto più difficili del previsto, molto dipendenti da domini, circostanze e potenza di elaborazione, e procedendo solo lentamente e con ardore.

Detto questo, esistono metodi consolidati per compiti come "analisi del sentimento" (decidere se un testo, ad esempio una recensione del cliente, è positivo o negativo), riassumere (estrarre il messaggio chiave da un passaggio di testo) o rispondere alle domande che funzionano abbastanza bene in condizioni controllate. Il rilevamento dell'autore è più difficile di entrambi; a volte puoi rilevare un particolare scrittore con frasi, costruzioni, argomenti o opinioni caratteristiche, ma spesso non puoi farlo, e gli stessi indicatori che funzionano abbastanza bene per un autore uno possono essere totalmente inutili per gli altri. Questo è ancora prima di considerare che le persone possono cambiare deliberatamente il loro stile di scrittura, in particolare per sconfiggere l'essere smascherato. Infatti, se tu avevi un algoritmo affidabile per il rilevamento degli autori, questo sarebbe un aiuto molto grande per qualcuno che cerca di sfuggire al rilevamento, poiché dovrebbe solo continuare a parafrasare fino a l'algoritmo non lo identifica più!

Questo è un problema generale con l'elaborazione del testo per sconfiggere le intenzioni umane: i risultati possono essere usati da entrambe le parti, il che spesso annulla qualsiasi progresso compiuto dagli scienziati. Ad esempio, molti insegnanti utilizzano i servizi di rilevamento di plagio online, ma questo funziona solo perché gli insegnanti si impegnano maggiormente nel rilevamento del plagio rispetto agli studenti che hanno messo in primo piano il plagio. Se qualcuno vuole davvero farla finita con la presentazione del lavoro di qualcun altro, deve semplicemente iscriversi agli stessi servizi e provare quali soluzioni verranno rilevate e quali no.

Quindi, nel complesso, il campo è enorme, frustrante ma affascinante e non è mai pronto per l'uso affidabile per quello che hai in mente.

    
risposta data 29.06.2013 - 11:36
fonte