Domande con tag 'web-scraping'

2
risposte

C'è un limite alla frequenza con cui dovrei accedere a un sito web programmaticamente per evitare DDOS? [chiuso]

Ho il mio sito web che mostra alcuni dati che ottengo da webscraping. Eseguo lo script webscraping sul mio server host del mio sito web. Ho appena realizzato che forse sto accedendo ad altri siti web troppo velocemente attraverso questo script....
posta 10.12.2015 - 17:36
1
risposta

Dovrei scegliere di non utilizzare l'API di qualcuno?

In un lavoro che ho iniziato di recente, ho ereditato alcuni dei progetti del ragazzo che in precedenza deteneva questa posizione. Uno dei progetti era un programma che utilizzava l'API pubblica di una piattaforma Web per ottenere determinati da...
posta 12.09.2018 - 22:39
1
risposta

Crea un ciclo che visita ogni link su un sito [chiuso]

Voglio creare un raschietto HTML in Ruby on Rails e voglio implementare una barra di avanzamento e un'abilità che riprenda da dove era stata interrotta se è stata interrotta durante lo scraping. Penso che il modo migliore per farlo sia quello...
posta 15.03.2014 - 18:32
1
risposta

Scrape sito Intranet senza un server web

Sto provando a ricostruire un semplice strumento c # time che mostra determinate statistiche sul tempo impiegato per il web, tuttavia, non ho accesso ad un server, quindi non posso usare il codice del server come PHP che farei se potessi e quest...
posta 06.09.2013 - 16:03
0
risposte

Qual è il termine utilizzato per le azioni automatizzate del bot Web?

Ho scritto script per eseguire la scansione e la scansione in VBA, Ruby e Python, ma se effettuo anche l'accesso e invio dei dati a livello di codice, come si chiama? (Da un ingegnere strutturale ossessivo-compulsivo che impara a programmare)....
posta 24.05.2018 - 11:20
1
risposta

Modellista raschietto web

Sto lavorando su una piccola applicazione che dovrebbe analizzare / analizzare un sito Web e mi chiedo quale sarebbe il modo migliore per ottenere ciò (tenendo DRY / SOLID in mente). Ecco alcuni pseudocodici: class ScraperScheduler def pe...
posta 01.05.2018 - 17:34
5
risposte

Blocco dell'indirizzo IP per il servizio di web-scraping

Sfondo Considera il seguente scenario: Link. L'utente fornisce un link ad un sito web mal formattato (ad es. contenuto della community creative ). Scrape. Il server scarica il contenuto (web scrap), sempre limitato. Formato. il...
posta 23.01.2013 - 20:48
2
risposte

Come posso acquisire informazioni da un sito Web che non fornisce un'API? [chiuso]

Conosci qualche buon tutorial, framework, tutto ciò che può aiutarmi a scrivere codice che cattura informazioni da un sito web che non ha un'API pubblica, o non è stato scritto in modo RESTful? Ho sentito che esiste una gemma Ruby che simula...
posta 21.03.2012 - 21:42
1
risposta

Cosa devo considerare quando raschio il contenuto da 6k + siti web?

Sto lavorando a un progetto che analizzerà i dati da circa 6.000 siti web. Sto considerando l'utilizzo di un modello server / client in cui il server è responsabile per raschiare i dati e importarli in un database mentre il client accede ai dati...
posta 05.06.2016 - 00:09
1
risposta

Guida introduttiva alla raccolta e all'analisi dei dati [chiusa]

Ho una comprensione molto limitata di SQL e PHP. Ho alcuni progetti su cui voglio provare a lavorare, il che richiederà un po 'di scraping web per la raccolta dei dati e quindi l'archiviazione, l'ordinamento e l'analisi dei dati. Mi piacerebbe a...
posta 04.06.2013 - 04:40