Domande con tag 'web-scraping'

1
risposta

Miglioramento delle prestazioni per il codice di scrap web

Ho un sito web in cui il codice raschia altri siti Web per ottenere dati accurati. Mentre il codice funziona bene, ma c'è un discreto ritardo nelle prestazioni perché il codice scarica il flusso html da vari siti (alcune volte 9 siti Web), estra...
posta 25.03.2012 - 07:22
5
risposte

Scrap di dati: un'applicazione o più?

Ho 30+ fonti di dati che scrivo quotidianamente in vari formati (xml, html, csv). Negli ultimi tre anni ho creato circa 20 applicazioni console in uscita, scaricato i dati e riformattato in un database. Ma sono curioso di sapere cosa fanno gli a...
posta 05.11.2011 - 17:54
1
risposta

Impedire al crawler di interferire con il tracciamento degli utenti

Sto raschiando il testo da vari negozi online (senza immagini / video o altri dati). Non sono esperto nel tracciamento degli utenti, quindi mi piacerebbe sapere se c'è un modo per me di scrivere il mio crawler in modo che non interferisca con il...
posta 19.03.2013 - 18:03
1
risposta

Guida del modulo di scansione del Web necessaria [chiuso]

Se ho un modulo creato sul mio sito web. Come posso ottenere quel modulo 1 per integrare i risultati in un altro modulo di siti web 2 ed estrarre informazioni da mostrare sul mio sito web? Ad esempio, se volessi creare un modulo come cartagz....
posta 18.08.2018 - 10:42
0
risposte

Raccolta di dati sportivi da molte fonti in molti formati

Sto cercando di risolvere un problema che esiste per uno sport. Lo sport è frammentato in molte federazioni e ciascuna federazione è completamente isolata dalle altre federazioni. Lo sport è lo stesso per ogni federazione. Il problema che sto ce...
posta 19.09.2017 - 21:16
0
risposte

Come mantenere la relazione della tabella tra i servizi con un'architettura di micro-servizi

Ho un servizio di raschietto che cerca i media online. Per ogni tipo di fonte,  ci sono due tabelle. Una tabella source comune e una tabella source_type_media correlate da source.id a source_type_media.source_id , questo servi...
posta 09.08.2018 - 08:16
3
risposte

Quando non ci sono API

Quando è necessario integrarsi con un'applicazione Web e un'API non è disponibile, è una soluzione valida per simulare un browser Web che interagisce con l'applicazione Web come un vero utente potrebbe interagire con esso? UPDATE Alcuni co...
posta 13.07.2013 - 21:40
2
risposte

Un buon strumento per l'automazione del browser / scripting Web lato client [chiuso]

Sono interessato all'adozione di uno strumento / linguaggio di scripting per automatizzare alcune attività quotidiane legate alla lotta agli spammer del forum. Una breve panoramica di queste attività: analizzare nuove registrazioni e post su un...
posta 29.11.2011 - 18:16
1
risposta

Posso raschiare un sito Web per lo stile dei caratteri?

Sto cercando di racimolare i siti web per un testo di valore, ad esempio il titolo di un articolo, il nome dell'autore e altri testi distinti. Non posso sempre garantire che questo tipo di testo abbia tag informativi, ma questo deve essere fatto...
posta 03.05.2014 - 18:29
3
risposte

Da dove le società finanziarie ottengono i dati di magazzino per analizzare [chiuso]

Ho pensato all'argomento e mi sono sempre chiesto, da dove ottengono i dati che vengono analizzati nelle applicazioni, ho guardato il sito web del Nasdaq e non sembrano avere alcun tipo di API, le aziende analizzano la sezione finanziaria di yah...
posta 25.05.2012 - 06:42