In che modo wsj.com tiene traccia degli utenti per trovare quanti articoli ho letto?

1

Stavo esplorando come i siti web tracciano gli utenti con il modo in cui vengono implementati i paywall. WSJ.com ha i modi migliori per rilevare gli utenti che hanno letto il contenuto (che non sono in grado di capire come l'hanno fatto).

I meccanismi standard noti per tracciare gli utenti (per montare un paywall) sono con

  1. Richiedi parametri (incluse le intestazioni Referral)
  2. Cookie / LocalStorage / Archiviazione di file
  3. Navigazione privata o browser diverso (tipo relativo ai cookie)
  4. Intestazioni ETag (modo meno noto per monitorare gli utenti)
  5. Indirizzi IP
  6. WebRTC / Lavoratori di servizi (che vengono eseguiti in background)
  7. Il caching del certificato SSL correlato (leggi un articolo, non era chiaro come fosse fatto)
  8. Fingerprinting del browser ha inviato le informazioni

Per quanto riguarda wsj.com, la pagina carica tonnellate di javascript da quasi 10s di domini. Il loro certificato SSL è condiviso da 10 siti Web (ciò potrebbe essere dovuto al fatto che utilizzano Akamai per pubblicare contenuti)

Sono preoccupato di come un sito Web mi stia monitorando attraverso i browser anche se ho (quasi) una lavagna pulita

    
posta Sairam 02.03.2017 - 09:06
fonte

1 risposta

2

Se dovessi implementare un paywall, probabilmente andrei con una combinazione dei metodi che hai citato.

Ad esempio, i cookie funzioneranno correttamente per molti utenti ed è efficiente, quindi questa sarebbe la prima "linea di difesa": se ricevessi un cookie da un cliente, lo userei per consentire o negare ingresso.

Se non avessi recuperato un cookie, potrei utilizzare ETags, e se anche questo non funzionasse, ricorreremo al Fingerprinting del browser in combinazione con la corrispondenza dell'indirizzo IP di origine fuzzy.

Il fingerprinting del browser è molto efficace (vedi EFF's Panopticlick per una demo) quando javascript è abilitato. Produrrà falsi positivi, ma se lo combini con uno sguardo al blocco di indirizzi IP da cui proviene la connessione di qualcuno, sarà molto preciso. Abbiamo un sacco di computer basati su un'immagine di installazione sul posto di lavoro, quindi si presume che abbiano la stessa impronta digitale del browser - ma dopo alcune settimane di utilizzo, ho eseguito un controllo rapido e sono state modificate diverse impronte digitali. Non sono sicuro del perché. Forse è dovuto all'installazione di software aggiuntivo, che ha installato caratteri aggiuntivi sulla macchina.

Lo farei in questo ordine perché i cookie sono il modo standard per farlo, gli etags sono un po 'subdoli e le impronte digitali durano, perché posso prendere decisioni sbagliate con le impronte digitali che hanno un impatto sui clienti innocenti. Tuttavia, sarebbe facile consentire alle vittime innocenti l'accesso - se chiudo a chiave qualcuno, visualizzerei semplicemente un messaggio che, se ritengono che il messaggio sia un errore, dovrebbero accettare i cookie dal mio dominio in futuro.

Puoi scoprire come WSJ lo fa vietando tutti i cookie - se WSJ ti identifica ancora, non lo fa solo con i cookie. Fai lo stesso per lo storage locale. Quindi si installa un plug-in che consente di bloccare le intestazioni correlate a ETag e vedere se continuano a identificarsi. Se lo fanno, disabilita Javascript. Se ciò non aiuta, gioca cambiando i valori di varie altre intestazioni, come l'intestazione Accept e così via.

    
risposta data 02.03.2017 - 10:30
fonte

Leggi altre domande sui tag