Sto utilizzando l'API OpenCalais per taggare gli articoli da più fonti di notizie.
So a quale categoria appartiene ciascun articolo (ad esempio crimine, politica, ecc.). Inoltre, ogni articolo ha tre tag social disponibili.
Come faccio a sapere qual è l'argomento più discusso da più fonti di notizie?
Ho pensato di raccogliere prima tutti gli articoli salvati nelle ultime 24 ore.
-
Prendi il primo articolo e aggiungi la sua categoria (ad esempio il crimine) come chiave per un dizionario. Il valore per quella chiave sarà un elenco di articoli.
-
Quindi all'interno di un ciclo, aggiungerei qualsiasi articolo da quella categoria all'elenco precedente.
-
Con questo approccio ho un dizionario in cui le chiavi sono la categoria e il valore rappresenta gli articoli appartenenti a quella categoria.
per es.
{
"Crime" : ["article1", "article4", "article6", "article7",
"Politics" : ["article2", "article3"]
}
La sfida è scoprire se gli articoli nella categoria Crime parlano dello stesso crimine o meno.
e.g. article1 has these three social tags:
["Crime in London", "Holborn", "Subterranean London"]
article4:
["Hatton Garden", "Holborn", "Subterranean London"]
article6:
["Clerkenwell crime syndicate", "Crime in London", "Holborn"]
But article7 seems to be about a different kind of crime than Hatton Garden heist:
["Subterranean London", "Tube", "Assault"]
Suppongo di dover utilizzare una sorta di intersezione matematica per scoprire per ogni articolo quanti tag social si corrispondono tra loro.
In modo che potrei dire articolo1 e articolo4 hanno due tag che si abbinano tra loro, e quindi hanno una probabilità più alta di coprire le stesse notizie.
Article6
è simile, poiché corrisponde a due tag con article1
, ma non article4
. Tuttavia, poiché article1
e 4
corrispondono, concludiamo che article1
, 4
e 6
coprono la stessa notizia. (Non so come ottenere ciò nel codice)
Mentre article7
corrisponde a un solo tag Social, che corrisponde a article1
e article4
rispettivamente, quindi è meno probabile che si parli dello stesso tipo di crimine. (Non so come arrivarci)
Ha senso, cosa sto cercando di ottenere? Grazie per il consiglio.