Come trovare articoli correlati tra una serie di articoli?

2

Sto utilizzando l'API OpenCalais per taggare gli articoli da più fonti di notizie.

So a quale categoria appartiene ciascun articolo (ad esempio crimine, politica, ecc.). Inoltre, ogni articolo ha tre tag social disponibili.

Come faccio a sapere qual è l'argomento più discusso da più fonti di notizie?

Ho pensato di raccogliere prima tutti gli articoli salvati nelle ultime 24 ore.

  • Prendi il primo articolo e aggiungi la sua categoria (ad esempio il crimine) come chiave per un dizionario. Il valore per quella chiave sarà un elenco di articoli.

  • Quindi all'interno di un ciclo, aggiungerei qualsiasi articolo da quella categoria all'elenco precedente.

  • Con questo approccio ho un dizionario in cui le chiavi sono la categoria e il valore rappresenta gli articoli appartenenti a quella categoria.

per es.

{ 
   "Crime" : ["article1", "article4", "article6", "article7",
   "Politics" : ["article2", "article3"] 
}

La sfida è scoprire se gli articoli nella categoria Crime parlano dello stesso crimine o meno.

e.g. article1 has these three social tags:  
   ["Crime in London", "Holborn", "Subterranean London"]
article4:
   ["Hatton Garden", "Holborn", "Subterranean London"]
article6:
   ["Clerkenwell crime syndicate", "Crime in London", "Holborn"]
But article7 seems to be about a different kind of crime than Hatton Garden heist:
   ["Subterranean London", "Tube", "Assault"]

Suppongo di dover utilizzare una sorta di intersezione matematica per scoprire per ogni articolo quanti tag social si corrispondono tra loro.

In modo che potrei dire articolo1 e articolo4 hanno due tag che si abbinano tra loro, e quindi hanno una probabilità più alta di coprire le stesse notizie.

Article6 è simile, poiché corrisponde a due tag con article1 , ma non article4 . Tuttavia, poiché article1 e 4 corrispondono, concludiamo che article1 , 4 e 6 coprono la stessa notizia. (Non so come ottenere ciò nel codice)

Mentre article7 corrisponde a un solo tag Social, che corrisponde a article1 e article4 rispettivamente, quindi è meno probabile che si parli dello stesso tipo di crimine. (Non so come arrivarci)

Ha senso, cosa sto cercando di ottenere? Grazie per il consiglio.

    
posta Houman 17.01.2016 - 15:03
fonte

1 risposta

0

Sospetto che giudicare gli articoli sia lo stesso evento basato su tre tag potrebbe non darti ottimi risultati.

Se hai accesso al testo completo degli articoli, allora è meglio confrontarli osservando il contenuto reale. Ci sono molti modi per farlo. Uno sarebbe quello di costruire un classificatore, come menzionato da Tibo nel suo commento. Suggerisco di iniziare calcolando i vettori tf-idf per i documenti e calcolandone la somiglianza del coseno.

C'è una domanda simile e una risposta dettagliata (con esempi di pitone su come fare questo, e un link a un'altra domanda su questo) su StackOverflow: link

    
risposta data 01.04.2016 - 02:11
fonte

Leggi altre domande sui tag