Sarebbe possibile per un ISP indovinare richieste specifiche su un sito HTTPS utilizzando la dimensione del pacchetto? [duplicare]

4

Alla luce della recente decisione del Senato negli Stati Uniti di consente agli ISP di vendere la cronologia di navigazione degli utenti , ho letto dei consigli su come gli utenti possono mantenere la loro privacy. Uno dei consigli comuni è quello di limitare la navigazione ai siti HTTPS, in modo che almeno il contenuto sul sito rimanga privato anche se l'attività del dominio non è più privata.

Pur pensando a questo, gli ISP potrebbero sicuramente fare alcune detrazioni di base abbastanza facilmente - ad es. l'alta percentuale di download su youtube.com suggerisce di guardare video, l'alta percentuale di upload su detto sito suggerisce il caricamento di video, ecc.

Adottando ulteriormente questo approccio, mi chiedo se gli ISP potrebbero indovinare contenuti di pagine specifiche utilizzando la dimensione richiesta HTTPS? Per esempio. che l'articolo "sicurezza tecnica / pregiudizio possibile contro i repubblicani" di Ars Technica I è un 16.77 / 16.78 kB di dimensioni di risposta trasferite per la sola pagina HTML di base. Considerando che un altro articolo che si adatta alla categoria "nerd" di solito arriva a 13,34 kB.

Ovviamente questo dipenderà dalla natura dinamica vs static / caching della pagina, e in particolare se vi è una sostanziale personalizzazione specifica dell'utente per ogni carico HTML.

Anche se questo concetto è valido? Ho ragione nel ritenere che la dimensione della richiesta crittografata tramite HTTPS sarà quasi esattamente proporzionale alla dimensione della richiesta sottostante?

Pensando alle possibili soluzioni, i siti potrebbero offuscare gli articoli riempiendo di HTML spazzatura (ad esempio una sezione di commenti di grandi dimensioni) per ridurre al minimo l'unicità. Allo stesso modo le immagini potrebbero essere compresse a dimensioni identiche, rendendo un approccio di mappatura semplice per qualsiasi ISP / sniffer di pacchetti inefficace e che richiede un riconoscimento di pattern più consistente. Anche se, naturalmente, questo è un po 'discutibile, in quanto quali domini sono stati visitati e quando è già più che sufficiente per costruire un profilo online.

    
posta andrewb 26.03.2017 - 01:32
fonte

1 risposta

3

In effetti stai chiedendo di tenere conto delle impronte digitali del browser quando visiti pagine specifiche su un sito web . Sì, questo è sicuramente qualcosa che può essere fatto ma la precisione varia da sito a sito a seconda di quanto variano le pagine web stesse e in genere le persone che fanno questo tipo di analisi stanno anche raccogliendo un po 'più di dati della sola dimensione richiesta HTTPS (anche se in alcuni casi le informazioni sulla richiesta HTTPS sono tutte necessarie).

Tieni presente che gli ISP in realtà ricevono molti più dati, tra cui richieste DNS, informazioni sui tempi per i carichi di pagina, risorse aggiuntive del browser che possono essere caricate (javascript, CSS di terze parti, caratteri Web, ecc.) e richieste di file ospitati su una rete CDN di Content Network o su un server di immagini secondario, o richieste di server di annunci remoti e alcune cose come Google Analytics allo stesso tempo.

Aggiungi tutti questi dati aggiuntivi e le impronte digitali che il browser sta facendo in qualsiasi momento diventa molto più facile anche con HTTPS abilitato sul sito principale visitato.

Pensa alle seguenti tre richieste per un sito web.

1.) La pagina principale contenente 15 immagini su 2 host e 2 CDN e un banner pubblicitario. Questa pagina carica anche una libreria Javascript da un sito remoto e alcuni font web da un altro sito Web.

2.) Una pagina secondaria contenente 3 immagini ospitate su 1 host e un'immagine di grandi dimensioni ospitata su un CDN, alcuni contenuti HTML da 1 host e 2 nuove connessioni di librerie javascript.

3.) Una terza pagina contenente informazioni molto specifiche di interesse che ospitano una pagina HTML molto più lunga, alcune foto molto grandi tutte provenienti da un solo host (non accedendo a un CDN) e forse questo sito ha impiegato più di un millisecondo per caricare da il server web non lo ha più memorizzato nella ram.

Questi sono esempi troppo semplicistici, ma quello che puoi iniziare a vedere è che ogni pagina web in questi esempi ha un'impronta digitale univoca quando caricata da un browser. Molti siti web hanno pagine molto omogenee che non si prestano a tali semplici impronte digitali, ma questo è principalmente a scopo di esempio.

In ogni caso, dal momento che queste impronte digitali uniche possono essere create e persino analizzate in modo proattivo da grandi motori di ricerca o bot (o semplicemente raccolti in massa dagli ISP). In alcuni casi rende molto semplice prevedere cosa sta facendo un utente e in molti casi esattamente quale pagina di un sito web viene visualizzata.

Per quanto le dimensioni delle richieste siano le stesse, hai anche tre variabili aggiuntive da tenere a mente:

1.) Algoritmi di compressione negoziati tra browser e server per i dati inviati.

2.) Variazione della dimensione del pacchetto dovuta a fattori aggiuntivi come il tipo di rete.

3.) Le pagine dinamiche con cose come i feed di notizie cambieranno di dimensioni.

Anche con un paio di variabili come queste, sarebbe ancora possibile approssimare ragionevolmente quale pagina sta caricando una persona. Non sarà un confronto esatto tra dimensione e pagina ma per determinati browser in determinate condizioni la dimensione dei dati sarà spesso la stessa e la gamma di comportamenti sarà probabilmente raggruppata molto strettamente.

Infine, una preoccupazione più grande è l'aggregazione di molti diversi tipi di dati e la compilazione di tali informazioni sui clienti in modo che la profilazione dei clienti possa avvenire con pochi clic e confronti con altri set di dati. Gli ISP riceveranno una quantità incredibile di dati sugli utenti finali da tutti i dispositivi nelle loro case che comunicano.

    
risposta data 26.03.2017 - 05:06
fonte

Leggi altre domande sui tag