GET / HTTP/1.1" 200 166113 "-" "Mozilla/5.0 (compatible; dsada/2.0; +http://www.asd.com/search/asddd.html)
Ho trovato questa richiesta ripetuta continuamente nei miei registri. Come posso evitare questo (richieste contenenti URL di altri siti Web)?
GET / HTTP/1.1" 200 166113 "-" "Mozilla/5.0 (compatible; dsada/2.0; +http://www.asd.com/search/asddd.html)
Ho trovato questa richiesta ripetuta continuamente nei miei registri. Come posso evitare questo (richieste contenenti URL di altri siti Web)?
Se sei sicuro di non voler indicizzare il tuo sito su questo motore di ricerca perticulare, puoi bloccare il crawler modificando il file .htaccess.
Nel file .htaccess devi abbinare il bot con lo specifico User Agent
e rispondere con una risposta personalizzata.
Questo può essere fatto con Apache RewriteEngine (funzionalità simili sarebbero disponibili anche per altri server HTTP). Aggiungi le seguenti righe nel tuo file .htaccess:
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (www.asd.com/search/asddd.html) [NC]
RewriteRule .* - [R=403,L]
Ciò che farà la regola di riscrittura di cui sopra è, corrisponde al User Agent
di ogni richiesta con il dato, e risponderà 403 Access Forbidden
per quello che corrisponde. Puoi anche generare altri codici di risposta.
Fonte: .htaccess RewriteRule
Vedi anche come bloccare bot / crawler in file master htaccess di nikosdion .
Se non ho frainteso, intendi l'URL di asd.com
.
La visita è fatta da un crawler / robot di un motore di ricerca. La stringa che inizia con Mozilla
e che include l'URL è il User Agent
fornito dalla sua richiesta HTTP. Indica al server del tuo sito web che tipo di client è, e l'URL ti dice a quale motore di ricerca appartiene.
Recuperano semplicemente il contenuto del tuo sito web e non fanno alcun danno su di esso, quindi non è necessario impedire che vengano visualizzati.
Leggi altre domande sui tag php authentication apache web-application centos