Sto cercando di racimolare i siti web per un testo di valore, ad esempio il titolo di un articolo, il nome dell'autore e altri testi distinti. Non posso sempre garantire che questo tipo di testo abbia tag informativi, ma questo deve essere fatto il più rapidamente possibile. Come possibile scorciatoia, penso che potrei semplicemente provare a tirare il testo con uno stile unico. Il titolo è normalmente più grande del testo del corpo, e la riga è normalmente più piccola. C'è un modo per ritirare rapidamente tutti gli stili di carattere di una pagina e quindi classificarli in base alla loro dimensione e alla frequenza con cui vengono utilizzati?