Ho sentito che l'analisi dell'HT utilizzando la via Cthulhu non è molto buona . Ma quali sono i modi giusti per analizzare l'HTML? O è possibile analizzarlo affatto?
Ho sentito che l'analisi dell'HT utilizzando la via Cthulhu non è molto buona . Ma quali sono i modi giusti per analizzare l'HTML? O è possibile analizzarlo affatto?
Or is it possible to parse it at all?
Alcuni dicono che è possibile, e che persino i browser usano questa funzione per visualizzare pagine web.
what are the right ways to parse HTML?
Fondamentalmente è necessario un parser in grado di esprimere l'idea che un elemento html possa essere composto da altri elementi html.
<div>
some text
<div>
nested element!!
</div> <!--a regular expression cannot tell if this closes the first or second div-->
</div>
Questo non può essere fatto con espressioni regolari. Ma puoi farlo con tipi più generici di parser.
vedi link
Leggi altre domande sui tag html regular-expressions parsing