Rilevamento dei siti web

2

Ho un web crawler e sto cercando suggerimenti che mi aiutino a rilevare automaticamente il Paese di origine del sito web.

Generalmente, per paese di origine intendo il paese a cui è indirizzato il sito web. Ad esempio:

So che non c'è un modo infallibile per farlo, quindi farò probabilmente affidamento su un sistema di punteggio.

  • Il nome del dominio;
  • La lingua dei contenuti;
  • L'indirizzo IP del server;
  • Whois informazioni;

Quali parametri aggiuntivi useresti?

Per gli esempi precedenti, una combinazione di dominio e linguaggio dei contenuti funzionerà, ma molti siti web hanno un dominio .com e una lingua parlata in più di un paese ...

    
posta Filipe Miguel Fonseca 20.01.2012 - 11:41
fonte

5 risposte

2

Informazioni sulla selezione dei paesi dal contenuto e dalle intestazioni.

    
risposta data 20.01.2012 - 11:49
fonte
2

Prova questo approccio. Inizia con il tuo elenco iniziale di parametri, quindi inizia a raccogliere i dati. Dopo aver trovato centinaia di siti nel tuo database, cerca quelli che non sembrano avere un senso. Quindi inizia a cercare altri indizi per risolvere quei valori anomali.

In altre parole, usa il metodo scientifico.

    
risposta data 20.01.2012 - 14:31
fonte
1

I quattro elementi che hai identificato sono anche gli unici a cui riesco a pensare.

Il nome di dominio, o meglio, il TLD che è probabilmente quello che intendi, può essere usato per un'identificazione positiva, ma non per uno negativo, perché potrebbe essere .com, nel qual caso non ti dice nulla.

La lingua del contenuto (come specificato nelle intestazioni) è l'indicatore migliore. Questo è anche ciò che il crawler probabilmente vuole sapere: quale lingua è il contenuto che esegue la scansione, non in quale paese risiede l'operatore del sito web.

Probabilmente l'indirizzo IP del server è quasi inutile, ma se tutto il resto fallisce, potresti usarlo come mezzo aggiuntivo per l'identificazione positiva. Non usarlo mai per l'identificazione negativa, perché molte persone ospitano i loro siti Web negli Stati Uniti, indipendentemente da dove provengono o da quale sia il loro pubblico.

Anche le informazioni Whois sono quasi inutili, perché di solito indicano dove si trova il registrar, il che in realtà non significa nulla. E in ogni caso, probabilmente sarà abbastanza difficile da ottenere e analizzare tutti i dati significativi da esso.

    
risposta data 20.01.2012 - 13:12
fonte
1

Per prima cosa devi definire cosa intendi per "paese di origine" e quindi basare il tuo rilevamento su quello. Potrebbe significare qualsiasi di:

  • Paese (o Paesi) in cui si trova il server fisico
  • Paese da cui il contenuto viene caricato e mantenuto (posizione fisica degli autori)
  • Paese in cui il nome del dominio è registrato
  • Paese in cui il dominio di primo livello suggerisce (ad es., i siti .fr sono presumibilmente "provenienti dalla Francia")
  • Paese targetizzato dal sito web (ad esempio, molti siti .nu hanno come target un pubblico olandese)
  • Paese associato alla lingua principale o alle lingue utilizzate nei contenuti del sito

Ogni significato richiede metodi di rilevazione diversi, alcuni accurati, altri più una questione di congetture.

    
risposta data 20.01.2012 - 13:15
fonte
0

Non ricordarlo? xkcd - mappa delle community online 2, in 3D

Internet riguarda gruppi di utenti, non le loro relazioni politiche o geografiche del mondo reale. Pertanto, non otterrai molto dalla conoscenza di tutti i siti più grandi di una pagina di scuola o di una lista di pagine gialle. Tutte le opzioni ora sono "filtro per IP di hosting", "filtro per lingua di pagina" e "[x] rilevamento di modelli di distretto di lingua specifici".

Tuttavia, se hai ancora bisogno di informazioni più dettagliate, prova a imageshack.us , tinypic / imgur o qualsiasi altro hosting di immagini. Conoscono sia gli IP dei client che gli indirizzi di riferimento dei siti che collegano con hotlink alle immagini ospitate e possono dire quanti visitatori da quale Paese hanno visto l'immagine ospitata in qualche pagina.

Quindi, se vuoi che il tracciamento - avviare un hosting di immagini, attaccare la risorsa in ricerca con immagini post, link e / o immagini GIF / PNG trasparenti nascoste 1x1 hotlinked con URI univoco, e voilà, hai quella mappa dei visitatori.

    
risposta data 20.01.2012 - 22:00
fonte

Leggi altre domande sui tag