Browser: ciò che viene salvato sul disco

1

Eseguiamo processi di raschiatura per conto degli utenti. Usiamo webkit-gtk come browser per fare lo scraping. Ogni lavoro viene eseguito come processo separato

Per non mescolare i dati degli utenti abbiamo isolato i seguenti dati per utente.

  1. Cookie
  2. cookie flash
  3. File cache
  4. HTML 5 di archiviazione

Devo preoccuparmi di altri tipi di file che il normale sesson del browser salverà? Il "browser" non ha altri plugin oltre al flash. Il browser non salva alcuna password e il riempimento automatico è disabilitato.

    
posta user871199 22.07.2014 - 04:13
fonte

1 risposta

1

Sembra che i dati dell'utente di base siano coperti, ma non sono sicuro del perché provare a isolarlo in quel modo. Avrei eseguito le istanze del browser di ciascun utente con una directory home / storage in-memory. Quindi, quando il processo termina, tutti i dati vengono distrutti, nessun rischio di lasciare nulla dietro. I Webkit senza testa come PhantomJS forniscono dei flag specifici per spostare questi dati nelle proprie directory, che possono essere posizionati su un ramdisk di tmpfs. (Webkit-gtk sembra essere una libreria, quindi presumo che tu abbia completato questo nel tuo programma?)

    
risposta data 22.07.2014 - 04:44
fonte

Leggi altre domande sui tag