Come posso acquisire informazioni da un sito Web che non fornisce un'API? [chiuso]

-1

Conosci qualche buon tutorial, framework, tutto ciò che può aiutarmi a scrivere codice che cattura informazioni da un sito web che non ha un'API pubblica, o non è stato scritto in modo RESTful?

Ho sentito che esiste una gemma Ruby che simula un browser, ma ho dimenticato il suo nome e non sono riuscito a trovare alcuna informazione su di esso.

    
posta João Daniel 21.03.2012 - 21:42
fonte

2 risposte

5

Esistono varie librerie Ruby per l'analisi (X) HTML in un formato strutturato. Due delle più antiche e popolari librerie per questo sono Hpricot e nokogiri . Queste librerie offrono una varietà di funzionalità per lavorare con i dati HTML.

Alcune cose da tenere a mente quando fai questo:

  • Rispetta il copyright! gli autori dei siti probabilmente non saranno contenti che le persone raschino i dati dai loro siti e li utilizzino senza permesso. Chiedi prima!
  • Le modifiche possono rompere le cose facilmente. Se cambiano la struttura del tuo sito, probabilmente il codice scoppierà se non scritto correttamente.
risposta data 21.03.2012 - 23:08
fonte
0

Bene, per Java è possibile utilizzare la libreria HttpClient di apache, che consente di effettuare (facilmente) chiamate http e di far fronte a sessioni e simili. Allo stesso modo, .NET ha una classe chiamata ... HttpClient.

Consumare la risposta, se non si dispone di una sorta di accordo predefinito, richiederà di impostare alcune aspettative (non può essere davvero TOTALMENTE arbitrario) e fare un po 'di analisi per raccogliere informazioni dalla risposta che si ottiene. / p>

Non posso parlare con Ruby, ma suppongo che ci sia qualcosa di simile nella maggior parte delle lingue moderne.

    
risposta data 21.03.2012 - 22:08
fonte

Leggi altre domande sui tag