Ci sono due tipi di automazione che dovresti occuparti dell'automazione.
Su un lato della medaglia ci sono gli spider dei motori di ricerca che tirano giù tutto ciò che possono, puoi dirigere questi spider con un robots.txt e sitemap.xml. Quale è un semplice problema da risolvere.
Dall'altro lato della medaglia ci sono i raschietti (molto rari) del contenuto. Questi sono praticamente indistinguibili dagli spider dei motori di ricerca. Spesso usano lo stesso user-agent e utilizzano circa la stessa larghezza di banda di uno spider dei motori di ricerca perché entrambi vogliono essere aggiornati. Per trovare un ragno che infrange le regole, puoi specificare un gestore di richieste blacklist nel tuo robots.txt e se qualcuno lo colpisce, puoi metterlo al bando. Sebbene il numero o gli spider maligni siano molto, molto piccoli, e questo potrebbe essere sfruttato come un attacco CSRF-DoS, in cui un utente malintenzionato costringe una vittima a caricare il gestore di richieste blacklist.
... detto 1 GB è TON di testo , ed è molto improbabile che tu superi questo limite a meno che tu non sia la vittima di un attacco DoS.