In che modo le aziende mantengono nascosti i siti Web durante lo sviluppo?

9

Sono nuovo di questo e anche un nuovo sviluppatore PHP di 19 anni appena assunto, quindi non sono sicuro di come funzioni. Molte aziende quando sviluppano i loro siti web tengono i loro siti nascosti dall'essere indicizzati. Quali sono alcuni modi in cui html5 / css e il lavoro di php / mysql sono nascosti dai motori di ricerca? Se non sbaglio, queste sono le tecniche:

  1. Sviluppo offline: utilizzo della memoria locale per il rendering di html / css; non sono sicuro di come PHP / mysql avrebbe funzionato con quello.

  2. Uso di .htaccess per impedire l'accesso

  3. Utilizzo di VPN per impedire l'accesso.

posta ariel 21.05.2012 - 04:57
fonte

5 risposte

20

La migliore pratica è avere un'approssimazione dello stack di produzione sul tuo computer di sviluppo locale. Questo in genere include il database, il server web e il codice personalizzato. Fai tutto il tuo sviluppo lì. Non modificare mai il codice su un server di produzione.

Quando le parti interessate della tua azienda sono pronte per l'attivazione della funzionalità, invia il codice dalla tua macchina locale al server di produzione. Potresti utilizzare un server di test in modo che le parti interessate interne possano visualizzare in anteprima le modifiche prima di andare in diretta.

Dovresti essere sicuro di usare un sistema di controllo delle versioni per gestire il tuo codice. Git e Mercurial sono opzioni solide.

    
risposta data 21.05.2012 - 05:18
fonte
6

Semplicemente chiedere agli spider di ricerca di non indicizzare il tuo sito è una difesa molto debole, se esiste.

Il solito modo di procedere è il seguente:

  • Durante lo sviluppo, si esegue il codice su una macchina di sviluppo che non è accessibile dall'esterno della LAN, o forse nemmeno da nessuna parte eccetto la stessa macchina (localhost). Questo di solito è fatto con un firewall, a livello di rete (un vero firewall LAN, se la vostra azienda vale qualcosa, ne avete uno) o localmente (un firewall "personale"). Inoltre, è possibile configurare il server Apache locale in modo che accetti solo le connessioni da localhost (127.0.0.1).
  • La versione di accettazione (vale a dire, una versione sandboxed per il cliente da provare e testare) viene eseguita su una macchina identica all'ambiente di produzione (il più possibile - alcuni dettagli di configurazione dovranno essere diversi); si limita l'accesso in modo simile a come si è fatto con l'ambiente di sviluppo, tranne che si concede anche l'accesso alla rete del cliente. Se ciò non è possibile (ad es., Poiché il cliente non ha il proprio IP dedicato o perché non può essere disturbato a capire di cosa si tratta), si può considerare di aggiungere l'autenticazione HTTP e fornire al cliente una password; questo può essere fatto a livello di server web (ad esempio, Apache), con un avvertimento: l'autenticazione HTTP passa sul cavo non crittografato, quindi se la versione di accettazione contiene qualcosa di riservato, servirlo esclusivamente su HTTPS è assolutamente necessario.

Riguardo a come impostare queste cose: se si esegue una distribuzione decent * nix, viene fornito con un gestore pacchetti ( apt , port-install , rpm , ecc.); usalo per installare i componenti che ti servono e leggi la documentazione. Chiedi aiuto a un amministratore di sistema se non riesci a scoprirlo da solo.

    
risposta data 21.05.2012 - 07:43
fonte
4

Per i crawler educati (ovvero qualsiasi motore di ricerca principale), puoi offrire un file /robots.txt con:

User-agent: *
Disallow: /

Ovviamente è solo di consulenza e non impedirà alle persone di visitare effettivamente il sito se conoscono l'URL. Un approccio migliore consiste nel mettere il sito dietro un qualche tipo di accesso se è necessario accedere da Internet in generale o semplicemente ospitare il server su un server Web interno.

    
risposta data 21.05.2012 - 05:02
fonte
1

Nello spirito di "entrare con più conoscenza":

Html / Css può essere nascosto con robots.txt , ma assicurati di cambiare quei file quando si spinge il sito in produzione. robots.txt non impedisce ad alcune persone a caso di indovinare il sito web di sviluppo (se è visibile a tutto il mondo).

.htaccess potrebbe essere utilizzato per aggiungere un nome utente / password combo a qualsiasi sito sviluppato.

Ecco un esempio di come potresti usare una VPN:

Tutte le richieste sul VPN passano attraverso un firewall. Quel firewall (eseguendo alcuni software come pfSense ) esamina le richieste dei siti Web e esegue alcuni reindirizzamenti in base all'URL. Ad esempio, l'URL link indirizza alla versione di example.com sul server di staging e l'URL di link indicherà la versione di example.com sul tuo server di sviluppo.

Poiché tutto questo è su una VPN privata, nessuno di questi siti web è accessibile dal mondo esterno.

Inoltre, per chiarire alcune cose con la tua domanda originale. Il lavoro php / mysql viene eseguito lato server , quindi i web crawler, i browser, ecc. Non vedono mai il codice: vedono solo l'output del codice (cioè, se hai configurato il tuo server correttamente e non sta visualizzando i file .php come testo).

Sono sicuro di aver letto male la tua domanda, ma ho trovato ambiguo il tuo uso della frase "memoria locale". LocalStorage può anche fare riferimento a una tecnologia HTML5 per l'archiviazione di risorse localmente sul computer di un cliente. Non è usato per il rendering di html / css, è solo un datastore (il browser rende html / css). Lo storage locale in genere non ha nulla a che fare con il modo in cui le aziende mantengono i siti Web nascosti durante lo sviluppo.

I file PHP possono essere visualizzati localmente se si sta eseguendo un server Web sul proprio computer ei file si trovano nelle directory appropriate (in genere la directory htdocs se si esegue Apache).

    
risposta data 21.05.2012 - 17:53
fonte
0

I motori di ricerca funzionano utilizzando spider : script che eseguono la scansione del Web da un collegamento a un altro. Se il tuo sito è nuovo e non esiste alcun link ad esso da nessun'altra parte, niente ti troverà. Questo, oltre a un file robots.txt configurato per impedire che spider in qualche modo vaghi per il tuo sito, dovrebbe essere sufficiente.

    
risposta data 21.05.2012 - 05:01
fonte

Leggi altre domande sui tag