Ho un web crawler e sto cercando suggerimenti che mi aiutino a rilevare automaticamente il Paese di origine del sito web.
Generalmente, per paese di origine intendo il paese a cui è indirizzato il sito web. Ad esempio:
So che non c'è un modo infallibile per farlo, quindi farò probabilmente affidamento su un sistema di punteggio.
- Il nome del dominio;
- La lingua dei contenuti;
- L'indirizzo IP del server;
-
Whois
informazioni;
Quali parametri aggiuntivi useresti?
Per gli esempi precedenti, una combinazione di dominio e linguaggio dei contenuti funzionerà, ma molti siti web hanno un dominio .com
e una lingua parlata in più di un paese ...