Richieste di blocco contenenti URL di altri siti Web

-1

GET / HTTP/1.1" 200 166113 "-" "Mozilla/5.0 (compatible; dsada/2.0; +http://www.asd.com/search/asddd.html)

Ho trovato questa richiesta ripetuta continuamente nei miei registri. Come posso evitare questo (richieste contenenti URL di altri siti Web)?

    
posta ramkumar moorthy 16.07.2016 - 05:23
fonte

2 risposte

2

Se sei sicuro di non voler indicizzare il tuo sito su questo motore di ricerca perticulare, puoi bloccare il crawler modificando il file .htaccess.

Nel file .htaccess devi abbinare il bot con lo specifico User Agent e rispondere con una risposta personalizzata.

Questo può essere fatto con Apache RewriteEngine (funzionalità simili sarebbero disponibili anche per altri server HTTP). Aggiungi le seguenti righe nel tuo file .htaccess:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (www.asd.com/search/asddd.html) [NC]
RewriteRule .* - [R=403,L]

Ciò che farà la regola di riscrittura di cui sopra è, corrisponde al User Agent di ogni richiesta con il dato, e risponderà 403 Access Forbidden per quello che corrisponde. Puoi anche generare altri codici di risposta.

Fonte: .htaccess RewriteRule

Vedi anche come bloccare bot / crawler in file master htaccess di nikosdion .

    
risposta data 16.07.2016 - 06:12
fonte
1

Se non ho frainteso, intendi l'URL di asd.com .

La visita è fatta da un crawler / robot di un motore di ricerca. La stringa che inizia con Mozilla e che include l'URL è il User Agent fornito dalla sua richiesta HTTP. Indica al server del tuo sito web che tipo di client è, e l'URL ti dice a quale motore di ricerca appartiene.

Recuperano semplicemente il contenuto del tuo sito web e non fanno alcun danno su di esso, quindi non è necessario impedire che vengano visualizzati.

    
risposta data 16.07.2016 - 05:55
fonte

Leggi altre domande sui tag