Recentemente ho imparato che usare una regex per analizzare l'HTML di un sito Web per ottenere i dati di cui hai bisogno non è il modo migliore di agire.
Quindi la mia domanda è semplice: quale è quindi il modo migliore / più efficiente e generalmente stabile per ottenere questi dati?
Devo notare che:
- Non ci sono API
- Non c'è altra fonte da cui posso ottenere i dati (nessun database, feed e così via)
- Non c'è accesso ai file sorgente. (Dati da siti web pubblici)
- Diciamo che i dati sono normali, visualizzati in una tabella in una pagina html
Attualmente sto usando Python per il mio progetto, ma una soluzione / suggerimenti indipendenti dal linguaggio sarebbe bello.
Come una domanda a parte: come faresti quando la pagina web viene costruita con le chiamate Ajax?
Modifica
Nel caso dell'analisi HTML, so che non esiste un modo reale stabile per ottenere i dati. Non appena la pagina cambia, il parser è fatto per. Ciò che intendo con stable in questo caso è: un modo efficace per analizzare la pagina, che mi dà sempre gli stessi risultati (ovviamente per lo stesso insieme di dati) a condizione che la pagina cambi not . / p>