Nascondi da Web Crawlers

1

Se avessi motivi legittimi per farlo, sarebbe possibile nascondere un servizio da webcrawlers e con quello nasconderlo da qualsiasi motore di ricerca come Google?

Posso impedire a un joe medio di inciampare nel mio servizio semplicemente cercandolo e solo che le persone accedono a quel servizio, se sanno che esiste e come accedervi?

    
posta Reteras 01.09.2018 - 00:26
fonte

2 risposte

2

Come suggerito da foresta @, puoi utilizzare un file di esclusione dei robot, che come ha detto anche seguiranno solo web crawler conformi. Ma è come aprire la tua casa perché tutti possano visitare e mettere il cartello "per favore non guardare dentro" sulla porta aperta della camera da letto. Indovina, ci sono visitatori che sono curiosi del perché non dovrebbero guardare e lo faranno esattamente.

Quindi, è solo un modo per scoraggiare i visitatori educati come i principali motori di ricerca. Se questo è abbastanza per te, allora potresti provarci.

... and only have people access that service, if they know that it exists and how to access it

Questo può essere realizzato con un collegamento non pubblico o richiedendo più del semplice collegamento, ovvero rendere invisibile la porta della camera da letto o semplicemente bloccare la porta con una chiave.

Un link non pubblico può essere realizzato semplicemente creando un file o una directory che non è collegata da qualche altra parte sulla tua pagina (e inoltre non dovrebbe essere visibile in alcuni indici di directory generati automaticamente, ad esempio disattivali). I crawler che non lo conoscono in anticipo su questo link non saranno in grado di eseguirne la scansione poiché non è collegato da nessun luogo che hanno visitato finora e quindi non sanno che esiste. Ovviamente, il collegamento deve rimanere non pubblico perché funzioni, quindi assicurati che nessuno lo pubblichi.

Molto meglio invece è richiedere un segreto aggiuntivo al collegamento stesso. Questo può essere fatto richiedendo l'autenticazione per una directory e configurando alcuni utenti, quindi fornire a tutti non solo il collegamento ma anche le credenziali di accesso (magari personalizzate). Anche se i crawler conoscono il link non hanno le credenziali e quindi non possono accedervi. Esistono numerose risorse su come configurare l'autenticazione, come Protezione con password di una directory utilizzando l'autenticazione di base .

    
risposta data 01.09.2018 - 09:17
fonte
3

Questo è esattamente ciò che è standard di esclusione dei robot . Metti un file di testo nel noto percorso /robots.txt e i web crawler conformi obbediranno. In particolare, è possibile escludere crawler specifici o escludere percorsi e risorse specifici dalla scansione. Ciò renderà il tuo sito Web "invisibile" ai motori di ricerca standard. Ovviamente, gli spambots non obbediranno necessariamente alle politiche di esclusione che hai impostato, quindi non ti proteggeranno da robot con comportamento anomalo.

Per impedire a qualsiasi bot di eseguire la scansione di qualsiasi pagina del tuo sito, devi utilizzare:

User-agent: *
Disallow: /
    
risposta data 01.09.2018 - 00:29
fonte

Leggi altre domande sui tag