Perché provare ad abbinare per ennesimi negativi, invece di abbinare i meno positivi?

1

Il mio titolo indicava chiaramente la mia mancanza di comprensione del concetto di base per la corrispondenza dei modelli, in particolare l'uso di .HTACCESS per impedire a Bad-Bot di accedere a un sito, cosa che fanno per eseguire la scansione o il mirroring della copia, consumando di conseguenza la larghezza di banda.

Ma la mia domanda non riguarda .HTACCESS - riguarda l'ovvia inefficacia (IMO) dell'uso di una lunga lista per la ricerca e la corrispondenza.

Non è molto meglio Consentire un elenco di risultati positivi, a differenza di Confronta contro elenchi di negativi ??

Ad esempio:

Primo tentativo di spiegazione:

Se l'User Agent NON corrisponde a uno di questi Good-Bot, quindi blocca.

Se l'User Agent corrisponde a uno di questi Bad-Bot, quindi blocca.

Non riesco a esprimere questa idea per formula o algoritmo perché non so come - assumendo che potrebbe essere, ma suppongo che potrei esprimere l'idea che sarebbe. . .

Secondo tentativo di spiegazione:

Se QUESTO NON è "A" ("A" è una lista di aspetti positivi), quindi nega.

Se QUESTA è UNA ISTANZA di 'A' ('A' è una lista di negativi), quindi nega.

Terzo tentativo!

Se questo non è ROSSO, quindi negare.

Se questo è BLU, GIALLO, VERDE, (cioè NON ROSSO), quindi negare.

Se ciò ha senso, perché uno sviluppatore web dovrebbe utilizzare quest'ultimo approccio se la lista di quest'ultimo è più della prima. Presumibilmente ci sono meno Good-Bot (User Agent) di quanto non ci siano i Bad-Bot (ignorando il fatto che l'UA può essere falsificato.)?

In definitiva, non sarebbe molto meglio creare un indice di tutti i Good-Bot comuni e usarlo per cercare e confrontare, piuttosto che elencare una lista apparentemente e potenzialmente infinita di Bad-Bot? (Senza dimenticare il tempo necessario per aggiornare un elenco di questo tipo con nuovi Bad-Bot.)

Riferimento: perishablepress.com/4g-ultimate-user-agent-blacklist /

Perché cercare e amp; corrisponde a MORE negativi, rispetto alla ricerca di meno positivi?

    
posta Dylan 24.03.2015 - 00:07
fonte

1 risposta

1

Questa è una questione di ciò che vuoi che sia l'impostazione predefinita.

Se si desidera consentire per impostazione predefinita, è necessario elencare quelli bloccati (lista nera). Se si desidera negare per impostazione predefinita, è necessario elencare quelli consentiti (lista bianca).

Le stringhe User-Agent sono incredibilmente varie. Se hai usato la white-list, il tuo sito non funzionerebbe per alcune persone e questo è qualcosa che non vuoi assolutamente. Quindi devi solo selezionare in modo selettivo i bot che effettivamente causano traffico eccessivo.

Questo vale per i siti pubblici. I siti e i siti intranet per clienti specifici possono, e spesso fanno, autorizzare solo gli utenti legittimi.

Presumably there are less Good-Bots (User Agents) than there are Bad-Bots (ignoring the fact the UA can be forged.)?

No, certamente non lo è. Ci sono molti browser di nicchia e vari script e strumenti e i browser includono vari bit di configurazione e non puoi mai sperare di raccogliere il set completo, perché ne vengono creati di nuovi ogni giorno.

    
risposta data 04.12.2017 - 11:27
fonte

Leggi altre domande sui tag