Come fanno le persone a rendere i propri siti Web non ricercabili tramite google ect?

-4

Le persone si riferiscono comunemente al "deep web" come alla classe di siti Web che non è possibile trovare attraverso i principali motori di ricerca. Usano URL realmente contorti che non hanno alcun senso al valore nominale, ma la mia comprensione è che Google si occupa anche del contenuto delle pagine web, quindi i siti web del mercato nero sono ecc. dovrebbe apparire in questo modo poiché la gente cerca molto spesso informazioni sui farmaci ect. e tutte le cose "abbozzate" (e non abbozzate) sul deep web.

Cosa mi manca qui?

    
posta thinksinbinary 27.01.2017 - 15:50
fonte

4 risposte

7

People commonly refer to the "deep web" as the class of websites that can't be found through the major search engines. They use really convoluted URLs that don't make any sense at face value,

Stai confondendo un paio di idee qui. Puoi leggere Clearing Up Confusion - Deep Web vs. Dark Web .

Il "deep web" è costituito da quelle pagine Web che non sono indicizzate nei motori di ricerca. Devi sapere come arrivarci per ottenerli, o seguire i link in una pagina web. Questo è più semplicemente causato dalla convenzione dei robot, come sottolinea @OscarAkaElvis.

Notare la somiglianza tra "deep web" e "deep linking": deep linking significa fornire collegamenti diretti a pagine sepolte all'interno della gerarchia di un altro server; il server di hosting potrebbe avere robot bloccati per guidare il traffico attraverso le loro prime pagine (e gli annunci, di solito). I "link diretti" consentono alle persone di ignorare tale flusso e ci sono state azioni legali avanti e indietro a proposito facendolo.

Il "dark web" è costituito da pagine web che sono ulteriormente sepolte e, sì, si basano in una certa misura sugli indirizzi di servizi nascosti di Tor ("URL contorti che non hanno alcun senso"). Questi sono anche probabilmente protetti da robot, ma poiché i robot sono un protocollo volontario, possono essere ignorati da chiunque lo desideri. Google e Bing non avranno buoni dati di ricerca sui siti "dark web", perché rispettano i robot. L'FBI e la DEA, d'altra parte, probabilmente hanno un motore di ricerca molto completo che non rispetta i robot.

C'è un eccellente articolo chiamato È ancora più facile nascondersi su the Dark Web che parla dei servizi nascosti Tor, di come non sono nascosti e di come la prossima generazione di servizi nascosti diventerà ancora più complicata:

The next generation of hidden services will use a clever method to protect the secrecy of those addresses. Instead of declaring their .onion address to hidden service directories, they’ll instead derive a unique cryptographic key from that address, and give that key to Tor’s hidden service directories. Any Tor user looking for a certain hidden service can perform that same derivation to check the key and route themselves to the correct darknet site. But the hidden service directory can’t derive the .onion address from the key, preventing snoops from discovering any secret darknet address. “The Tor network isn’t going to give you any way to learn about an onion address you don’t already know,” says Mathewson.

    
risposta data 27.01.2017 - 16:14
fonte
1

aggiungi un file robots.txt nella directory web principale con questo contenuto:

User-agent: *
Disallow: /

Hai documentazione qui sul file robots.txt.

    
risposta data 27.01.2017 - 16:00
fonte
1

They use really convoluted URL

Penso che tu intenda l'url ID-like dei servizi nascosti TOR. Questa è in realtà una chiave pubblica. L'altra risposta menziona il file robots.txt, ma questo è solo chiedere al robot di ricerca bene di non guardare oltre. Non offre alcuna protezione effettiva.

I servizi nascosti TOR funzionano consentendo a tutti di sapere che esistono, ma non dove sono. In questo modo, qualcuno potrebbe potenzialmente ospitare contenuti illegali e tutti potrebbero vederlo tramite TOR senza sapere dove si trova la macchina reale. Questa sicurezza si basa sulla crittografia e non dipende dal bot di ricerca che obbedisce agli standard.

Per ulteriori informazioni su come è fatto, consulta i documenti qui: link

    
risposta data 27.01.2017 - 16:08
fonte
1

Puoi inserire Header set X-Robots-Tag "noindex, nofollow" nel file di configurazione .htaccess o apache

Se il tuo sito è già indicizzato da Google, puoi dire loro di rimuoverlo utilizzando la Search Console di Google all'indirizzo www.google.com/webmasters/

    
risposta data 27.01.2017 - 19:54
fonte

Leggi altre domande sui tag