Un nuovo CAPTCHA che usa le frasi?

8

Stavo solo pensando a come recaptcha sta diventando più difficile quando pensavo a un'altra soluzione possibile. Le immagini non dureranno per sempre, quindi avremo bisogno di qualcos'altro un giorno, come la logica o l'emozione umana. Google e altri stanno provando a raggruppare le immagini per categoria (trova l'immagine a cui non appartiene) ma richiede una grande quantità di immagini e non funziona per i non vedenti.

Ad ogni modo, cosa accadrebbe se venisse raccolta una vasta raccolta di testi (libri di dominio pubblico di ogni lingua) e una frase fosse mostrata all'utente con 1 (o 2) parole che erano una selezione di scelte? Solo i computer che conoscevano la corretta grammatica inglese / spagnola / tedesca sarebbero in grado di dire quale delle parole apparteneva alla frase.

Ci sarebbero problemi con questo approccio? Suppongo che sarebbe stato abbastanza facile per chiunque conoscesse la lingua in cui è stato visualizzato il sentenzioso per capire la risposta più facilmente che cercare di leggere il testo di reCAPTCHA. Inoltre, la memorizzazione di un numero folle di frasi richiederebbe solo un paio di gigabyte di spazio e non impiegherebbe quasi il tempo della CPU per la creazione di immagini / audio. In altre parole, chiunque potrebbe ospitare il proprio sistema captcha con un impatto minimo sulle prestazioni del sistema.

C'è un problema con questo approccio? Più in particolare sto cercando il problema principale con questo approccio.

migrati dallo stackoverflow

    
posta Xeoncross 08.03.2011 - 20:40
fonte

9 risposte

7

Per prima cosa, ti do Watson di IBM . Penso che il computing abbia superato di gran lunga il semplice riempimento dei problemi di linguaggio.

Successivamente, ti fornisco tutti i correttori ortografico / grammaticale implementati nel software. Determinare se una parola è grammaticalmente corretta in una frase viene risolta in > 90% dei casi. Mi butterò il collo e direi che sono più bravo in alfabetizzazione della maggior parte degli umani che conosco.

Non credo che la tua idea di CAPTCHA funzionerà bene come ti aspetti ...

    
risposta data 08.03.2011 - 22:03
fonte
6

Vediamo, quanto tempo ci vorrà per selezionare sempre la prima scelta e alla fine andarci bene?

    
risposta data 08.03.2011 - 21:00
fonte
4

Se stai tirando frasi da libri di dominio pubblico, un bot non avrebbe bisogno di sapere nulla sulla grammatica. Dovrebbe semplicemente indicizzare le stesse frasi e fare una ricerca per trovare quale parola viene usata la frase vera e propria. E questo presuppone che tu risolva ragionevolmente il problema. Jeff O ha suggerito dove puoi aggirare il problema indovinando la prima opzione ogni volta.

Inoltre, molte frasi nell'universo dei libri di dominio pubblico sarebbero inappropriate per questo tipo di sforzo. Molti sarebbero ambigui senza contesto. Molti contengono contenuti discutibili (immaginate di presentare una frase a caso da Huckleberry Finn). Quindi dovresti investire un discreto sforzo per arrivare a una serie di frasi che non saranno offensive e che non saranno ambigue. Se accetti che alcune frasi siano ambigue, perdi gran parte della capacità di punire i bot per indovinare erroneamente.

    
risposta data 08.03.2011 - 23:58
fonte
3

Un problema più difficile per bot sarebbe rimuovere una parola da una frase, quindi presentare una scelta tra quattro parole diverse della stessa parte del discorso. (Ad esempio, rimuovere un nome, quale di questi quattro nomi si adatta meglio qui?)

Gli algoritmi di tagging e parsing non sono perfetti, ma gli approcci basati sul corpus sono arrivati al punto in cui è possibile addestrare un parser abbastanza bene da aiutarti a superare le probabilità su un CAPTCHA con software di base o open source. (Quando stai inviando spam in volume, va bene se alcuni messaggi non riescono a passare, a condizione che ne facciano abbastanza per aumentare il tasso di successo complessivo.)

Però i computer non sono altrettanto buoni con la semantica.

    
risposta data 08.03.2011 - 21:01
fonte
3

La maggior parte dello spam che ricevo in questi giorni è in realtà non generato da bot. Ottengo un sacco di spam proveniente da paesi del terzo mondo in cui le persone vengono assunte per pochi centesimi all'ora per pubblicare messaggi su forum e blog e simili.

Nessun sistema che distingue tra umani e computer lo fermerà.

Per questo motivo, ho completamente eliminato CAPTCHA sui miei siti. Invece, ho una soluzione basata su javascript abbastanza semplice (in pratica, Javascript in esecuzione sul client riorganizza i campi in modo che se pubblichi con Javascript disattivato, fallisce). Questo blocca il 95% dello spam bot, ma ovviamente non ha alcun effetto sullo spam umano - ma poi, neanche un CAPTCHA.

    
risposta data 09.03.2011 - 00:31
fonte
2

Only computers that knew correct English/Spanish/German grammar would be able to tell which of the words belonged in the sentence.

La risposta potrebbe diventare soggettiva (non è in realtà soggettiva, ma la mancanza di concetti linguistici abbraccia tutte le società) e difficile per coloro che non parlano la lingua in modo nativo.

Se è presente un elenco limitato di regole grammaticali (che ogni lingua ha) viene presentato, diventa semplicemente un algoritmo; accessibile ora da qualsiasi macchina che voglia implementare l'algoritmo.

    
risposta data 08.03.2011 - 20:50
fonte
2
  1. Tutti i captcha sono suscettibili alla coltivazione di captcha.
  2. La scelta multipla è troppo facile da risolvere con un tentativo casuale. (Come sottolineato da altri.)

Ma ignorando questi gravi trucchi, c'è il problema delle lingue.

Le lingue di agglutinazione come l'ungherese o il finlandese si prestano facilmente a questo tipo di captcha, perché le parole possono avere molti suffissi e ognuna di esse ha uno scopo diverso nella frase (ad es. lo stesso nome ha un suffisso diverso se usato come oggetto o soggetto) Tuttavia, le regole sono solo complicate per gli esseri umani, una macchina troverà quella corretta in alcuni tentativi.

Isolare le lingue (l'inglese è un esempio approssimativo, il cinese mandarino è molto più pulito) sono anche peggio, poiché la grammatica è dettata principalmente dalla posizione nella frase e non dalla forma della parola.

Le lingue fusionali come il russo o il greco probabilmente pongono ancora un altro insieme di problemi e così via.

Per riassumere, indovinelli linguistici che si traducono bene e sono difficili da indovinare a caso sono notoriamente difficili da trovare. Probabilmente è molto più facile concentrarsi sulla semantica, piuttosto che sulla sintassi. Ad esempio, "Continua la seguente sequenza: giovedì, mercoledì, martedì ..." oppure "inforna, friggi, arrosto ..." e così via.

    
risposta data 09.03.2011 - 01:21
fonte
1

La solita idea dietro un captcha è che dovrebbe fermare i bot quasi sempre. Una scelta multipla tra N risposte blocca solo il bot (N - 1) / N del tempo, e quindi il bot passerà attraverso una media di N tentativi.

È possibile implementare i time-out per le risposte captcha errate, ma non si può essere troppo rigorosi su questo senza seriamente disturbare le persone che non sono un buon inglese (o altro) altoparlanti o hanno problemi con le caselle selezionate (mani tremanti, cattive topi, altri handicap). Inoltre, i time-out non fermeranno una botnet, dal momento che le ipotesi possono provenire da diversi IP.

Inoltre, come ci si assicura che ci sia una sola risposta legittima? Una frase scelta casualmente dal Progetto Gutenberg può avere senso con diversi nomi scelti a caso, ma solo una è la risposta giusta.

    
risposta data 09.03.2011 - 00:01
fonte
0

Tutto quello che stai facendo è rendere più difficile per gli umani utilizzare il tuo sito, mentre per i bot non stai aggiungendo alcun ostacolo.

Ciò su cui dovresti concentrarti è la creazione di un meccanismo che rilevi automaticamente se qualcosa che viene pubblicato è spam e blocca il post se lo è (rinviandolo alla moderazione umana, ad esempio, e dando al poster un messaggio in tale misura).

I CAPTCHA sono arrivati al punto in cui sono così fastidiosi che tendo ad evitare sempre di più i siti che li usano, e molti con me. Questo specialmente perché sono noti per non avere alcun effetto sugli spambots di alcun tipo.

    
risposta data 09.03.2011 - 08:23
fonte

Leggi altre domande sui tag