Oltre ad obbedire a robots.txt, obbedire nofollow
e noindex
in <meta>
elementi e collegamenti:
-
Molti credono che robots.txt sia non il modo corretto di indicizzazione dei blocchi e, a causa di tale punto di vista, ha incaricato molti proprietari di siti di affidarsi al tag <meta name="robots" content="noindex">
per indicare ai web crawler di non indicizzare una pagina.
-
Se stai cercando di creare un grafico delle connessioni tra siti web (qualcosa di simile a PageRank),
(e <meta name="robots" content="nofollow">
) dovrebbe indicare che il sito di origine non si fida abbastanza del sito di destinazione per dargli una approvazione adeguata. Pertanto, mentre puoi indicizzare il sito di destinazione, non devi memorizzare la relazione tra i due siti.
SEO è più un'arte che una vera scienza, ed è praticato da un sacco di persone che sanno quello che stanno facendo, e un sacco di persone che leggono i riassunti esecutivi di persone che sanno quello che stanno facendo. Vi imbatterete in problemi in cui vieni bloccato dai siti per fare cose che altri siti hanno trovato perfettamente accettabili a causa di alcune regole che qualcuno ha sentito o letto in un post sul blog su SEOmoz che potrebbe essere o non essere interpretato correttamente.
A causa di questo elemento umano, a meno che tu non sia Google, Microsoft o Yahoo !, si presume che sia malizioso a meno che non sia provato diversamente. Devi fare molta attenzione a comportarti come se non fosse una minaccia per il proprietario di un sito web e agire in base a come vorresti che un crawler potenzialmente malevolo (ma auspicabilmente benigno) agisse:
- interrompi la scansione di un sito una volta rilevato che sei bloccato: 403/401 su pagine che conosci funzionano, rallentamenti, timeout, ecc.
- evitare di eseguire ricerche per indicizzazione esaustive in periodi di tempo relativamente brevi: eseguire la scansione di una parte del sito e tornare più tardi (pochi giorni dopo) per eseguire la scansione di un'altra porzione. Non effettuare richieste parallele.
- evitare la scansione di aree potenzialmente sensibili: ad esempio gli URL con
/admin/
,
Anche in questo caso, sarà una battaglia in salita a meno che non ricorra a tecniche black hat come spoofing UA o mascherando di proposito i tuoi pattern di scansione: molti proprietari di siti, per le stesse ragioni sopra, bloccheranno un crawler sconosciuto a vista invece di correre il rischio che qualcuno non provi a "hackerare il loro sito". Preparati per un sacco di fallimenti.
Una cosa che potresti fare per combattere l'immagine negativa che un crawler sconosciuto sta per avere è di mettere in chiaro nella stringa user-agent chi sei:
Aarobot Crawler 0.9 created by John Doe. See http://example.com/aarobot.html for more information.
Dove http://example.com/aarobot.html
spiega cosa stai cercando di realizzare e perché non sei una minaccia. Quella pagina dovrebbe avere alcune cose:
- Informazioni su come contattarti direttamente
- Informazioni su ciò che il crawler raccoglie e perché lo sta raccogliendo
- Informazioni su come disattivare e recuperare i dati eliminati
Quest'ultima è la chiave: un buon opt-out è come una Garanzia di rimborso ™ e segna una quantità irragionevole di buona volontà. Dovrebbe essere umano: un semplice passaggio (o un indirizzo email o, idealmente, un modulo) e completo (non dovrebbero esserci "trucchi": opt-out significa smettere di strisciare senza eccezioni).