Come posso rilevare che la mia pagina è richiesta dal robot, ma non dal browser dell'utente? Sono a conoscenza dei trucchi di base:
- Guarda le intestazioni o gli URL errati. Ad esempio, url con hash o intestazione con URL completo - OTTIENI www.yoursite.com/test
- Rileva che diverse pagine non correlate sono state richieste direttamente da qualche IP (non abbastanza buono)
- Guarda le intestazioni mancanti
- Guarda gli agenti utente obsoleti
Esistono altri modi per rilevare i robot?
UPDATE : alcuni buoni robot si identificano nell'intestazione User-Agent:
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)