Domande con tag 'web-crawler'

7
risposte

Come essere un buon cittadino durante la scansione di siti Web?

Svilupperò alcune funzionalità in grado di eseguire la scansione di vari siti Web pubblici e di elaborare / aggregare i dati su di essi. Nulla di strano è cercare indirizzi e-mail - in effetti è qualcosa che potrebbe effettivamente portare traff...
posta 11.07.2011 - 03:25
3
risposte

Che cosa succederà se non seguo robots.txt durante la scansione? [duplicare]

Sono nuovo sul web crawling e sto testando i miei crawler. Sono stati test su vari siti per i test. Ho dimenticato il file robots.txt durante i miei test. Voglio solo sapere cosa succederà se non seguo il file robots.txt e qual è il modo si...
posta 20.12.2012 - 08:48
3
risposte

Alla ricerca di buoni libri sulla teoria dietro i motori di ricerca [chiuso]

Sto lavorando a un progetto che richiede di comprendere diverse tecniche utilizzate dai motori di ricerca per il web. Ho un strong background scientifico e di sviluppo, quindi non ho paura di informazioni altamente tecniche. Sto cercando t...
posta 03.09.2011 - 20:04
4
risposte

Sviluppo di un sistema di rilevamento di bot / web crawler

Sto cercando di creare un sistema per la mia azienda che desideri verificare la presenza di modelli insoliti / abusivi di utenti (principalmente web scrapers). Attualmente la logica che ho implementato analizza i log di accesso http e tiene c...
posta 23.12.2011 - 07:11
1
risposta

Posso autorizzare gli agenti utente che eseguiranno JavaScript?

Sto costruendo una SPA (applicazione a singola pagina) in modo che quando un browser richiede una pagina dal mio server, riceve solo un piccolo HTML e una grande app JavaScript che richiede i dati appropriati dal server, esegue il rendering dell...
posta 07.09.2015 - 22:21
2
risposte

Qual è la strada da percorrere per estrarre i dati dai siti web? [chiuso]

Ho pensato a un progetto parallelo che coinvolge lo scraping dei dati web. Ok, ho letto Ottenere dati da una pagina web in modo stabile ed efficiente e la discussione mi ha dato alcuni spunti. Nella discussione Joachim Sauer ha dichiarat...
posta 23.05.2013 - 14:21
1
risposta

Quanta elaborazione da fare nel crawler? - buone pratiche di scansione

Attualmente sto lavorando a un progetto per animali domestici in Python con scrapy che raschia diversi siti di tipo ebay per le offerte immobiliari nella mia zona. Il fatto è che alcuni siti sembrano fornire dati più strutturati nelle loro pagin...
posta 17.06.2016 - 18:58
2
risposte

Come trovare una buona pagina iniziale per un web crawler? [chiuso]

Ho iniziato a costruire un web crawler e ho letto da qualche parte che è molto difficile trovare una buona pagina iniziale per il crawler. Qualcuno può spiegarmi se esiste una procedura / linee guida predefinite per trovare una buona pagina iniz...
posta 01.02.2013 - 12:52
1
risposta

È considerata una cattiva pratica eseguire la scansione attraverso la versione mobile di un sito?

Sto costruendo un web spider per eseguire la scansione attraverso diversi siti, ma uno di essi usa i pulsanti javascript anziché i collegamenti per diverse funzioni. E mentre potrei imparare a seguirli, aggiunge un ulteriore livello di complessi...
posta 17.07.2016 - 08:24
1
risposta

Modi per raccogliere informazioni sugli eventi da Internet [chiuso]

Quali sono i modi migliori per raccogliere informazioni sugli eventi (di qualsiasi tipo) da Internet? Tenendo presente che diversi siti Web presenteranno le informazioni in diversi modi. Stavo pensando ai web crawler "intelligenti", ma que...
posta 01.11.2012 - 14:40