Questa non è davvero una grande domanda per stackexchange dato che Google mantiene segreti i suoi algoritmi, quindi tutto ciò che possiamo veramente fare è fare ipotesi su come funziona, ma la mia comprensione è che il nuovo sistema analizzerà la tua attività su tutti i Google servizi (e probabilmente anche altri siti su cui Google ha un certo controllo, come i siti web che dispongono di annunci Google).
Pertanto, è probabile che i controlli non siano limitati solo alla pagina che contiene la casella di controllo. Ad esempio, se rilevano che il tuo computer / indirizzo IP che utilizzi è stato utilizzato anche in passato per fare cose che un normale umano farebbe: cose come controllare Gmail, cercare su Ricerca Google, caricare file su Drive, condividere foto, navigare il web ecc. - allora probabilmente può essere ragionevolmente sicuro che tu sia un essere umano e permetterti di saltare la verifica dell'immagine. D'altra parte, se non è in grado di associare il tuo computer a precedenti attività di tipo umano, sarebbe più sospetto e ti darà la verifica dell'immagine. Anche se il comportamento del mouse mentre fa clic sulla casella di controllo potrebbe essere un fattore analizzato, ci sono quasi sicuramente molto di più.
Ancora una volta, non sappiamo con certezza come funzioni. Questa è solo la mia ipotesi migliore basata su quel poco che Google ha detto:
While the new reCAPTCHA API may sound simple, there is a high degree
of sophistication behind that modest checkbox. CAPTCHAs have long
relied on the inability of robots to solve distorted text. However,
our research recently showed that today’s Artificial Intelligence
technology can solve even the most difficult variant of distorted text
at 99.8% accuracy. Thus distorted text, on its own, is no longer a
dependable test.
To counter this, last year we developed an Advanced Risk Analysis
backend for reCAPTCHA that actively considers a user’s entire
engagement with the CAPTCHA—before, during, and after—to determine
whether that user is a human. This enables us to rely less on typing
distorted text and, in turn, offer a better experience for users. We
talked about this in our Valentine’s Day post earlier this year.
Per me il punto su "prima, durante e dopo l'uso" è un strong suggerimento che analizzano il precedente comportamento di navigazione, ma la mia interpretazione potrebbe essere sbagliata.
Ecco una citazione da WIRED:
Instead of depending upon the traditional distorted word test,
Google’s “reCaptcha” examines cues every user unwittingly provides: IP
addresses and cookies provide evidence that the user is the same
friendly human Google remembers from elsewhere on the Web. And Shet
says even the tiny movements a user’s mouse makes as it hovers and
approaches a checkbox can help reveal an automated bot.
C'è un altro thread su StackOverflow che discute anche di questo: link
Per quanto riguarda la verifica delle immagini, non sarai in grado di trovare quelle immagini con la ricerca inversa delle immagini o di compilare un loro database. Di solito sono segnali stradali casuali o numeri civici catturati dalle auto di Google Street View o parole di libri scansionati per il progetto Google Libri. C'è un buon scopo alla base di questo: Google utilizza effettivamente ciò che le persone digitano in reCaptcha per migliorare i propri database e addestrare gli algoritmi OCR. reCaptcha fornisce la stessa immagine a un numero di utenti e, se tutti sono d'accordo su ciò che dice, l'immagine diventa dati di allenamento per l'intelligenza artificiale di Google.
Da wikipedia:
The reCAPTCHA service supplies subscribing websites with images of
words that optical character recognition (OCR) software has been
unable to read. The subscribing websites (whose purposes are generally
unrelated to the book digitization project) present these images for
humans to decipher as CAPTCHA words, as part of their normal
validation procedures. They then return the results to the reCAPTCHA
service, which sends the results to the digitization projects.
reCAPTCHA has worked on digitizing the archives of The New York Times
and books from Google Books.[3] As of 2012, thirty years of The New
York Times had been digitized and the project planned to have
completed the remaining years by the end of 2013. The now completed
archive of The New York Times can be searched from the New York Times
Article Archive, where more than 13 million articles in total have
been archived, dating from 1851 to the present day.