Sfondo
Considera il seguente scenario:
- Link. L'utente fornisce un link ad un sito web mal formattato (ad es. contenuto della community creative ).
- Scrape. Il server scarica il contenuto (web scrap), sempre limitato.
- Formato. il server formatta il contenuto (ad esempio, esegue l'elaborazione del linguaggio naturale).
- Restituzione. il server invia i risultati formattati all'utente.
Problema
Il server che ospita il sito Web con formattazione insufficiente ( host ) può bloccare il server che estrae il contenuto ( scraper ). Se ciò accade, l'utente non può più utilizzare il servizio per modificare automaticamente il formato.
Supponiamo che i termini del servizio non vietino lo scraping, né che sia disponibile un'API per estrarre i dati direttamente.
Commenti sul copyright
- Il contenuto non è soggetto a copyright: è un contenuto di creatività pubblica o già di dominio pubblico.
- Il contenuto proviene da domini autorizzati che sono stati controllati (ad esempio, lavori del governo federale degli Stati Uniti).
- Per quello che vale, non so nemmeno se i siti bloccheranno le richieste (soprattutto considerando quanto rare saranno le richieste e probabilmente farò un pre-caching). È per lo più accademico a questo punto
Domanda
Quali strategie utilizzeresti (ad esempio utilizzando una rete virtuale o un servizio cloud) in modo che l'indirizzo IP del scraper possa facilmente cambiare (potenzialmente in modo dinamico) per evitare di essere bloccato da Host