Il mio titolo indicava chiaramente la mia mancanza di comprensione del concetto di base per la corrispondenza dei modelli, in particolare l'uso di .HTACCESS per impedire a Bad-Bot di accedere a un sito, cosa che fanno per eseguire la scansione o il mirroring della copia, consumando di conseguenza la larghezza di banda.
Ma la mia domanda non riguarda .HTACCESS - riguarda l'ovvia inefficacia (IMO) dell'uso di una lunga lista per la ricerca e la corrispondenza.
Non è molto meglio Consentire un elenco di risultati positivi, a differenza di Confronta contro elenchi di negativi ??
Ad esempio:
Primo tentativo di spiegazione:
Se l'User Agent NON corrisponde a uno di questi Good-Bot, quindi blocca.
Se l'User Agent corrisponde a uno di questi Bad-Bot, quindi blocca.
Non riesco a esprimere questa idea per formula o algoritmo perché non so come - assumendo che potrebbe essere, ma suppongo che potrei esprimere l'idea che sarebbe. . .
Secondo tentativo di spiegazione:
Se QUESTO NON è "A" ("A" è una lista di aspetti positivi), quindi nega.
Se QUESTA è UNA ISTANZA di 'A' ('A' è una lista di negativi), quindi nega.
Terzo tentativo!
Se questo non è ROSSO, quindi negare.
Se questo è BLU, GIALLO, VERDE, (cioè NON ROSSO), quindi negare.
Se ciò ha senso, perché uno sviluppatore web dovrebbe utilizzare quest'ultimo approccio se la lista di quest'ultimo è più della prima. Presumibilmente ci sono meno Good-Bot (User Agent) di quanto non ci siano i Bad-Bot (ignorando il fatto che l'UA può essere falsificato.)?
In definitiva, non sarebbe molto meglio creare un indice di tutti i Good-Bot comuni e usarlo per cercare e confrontare, piuttosto che elencare una lista apparentemente e potenzialmente infinita di Bad-Bot? (Senza dimenticare il tempo necessario per aggiornare un elenco di questo tipo con nuovi Bad-Bot.)
Riferimento: perishablepress.com/4g-ultimate-user-agent-blacklist /
Perché cercare e amp; corrisponde a MORE negativi, rispetto alla ricerca di meno positivi?