"A" è relativo a "B" e "C". Come faccio a dimostrare che "B" e "C" potrebbero, anche in questo contesto, essere correlati?
Esempio:
Ecco alcuni titoli di un recente spettacolo di Broadway:
- Glengarry Glen Ross di David Mamet, con Al Pacino, si apre a Broadway
- Al Pacino in 'Glengarry Glen Ross': cosa pensavano i critici?
- Al Pacino ottiene recensioni poco brillanti per il turno di Broadway
- Rassegna teatrale: Glengarry Glen Ross sta vendendo le sue stelle difficili
- Glengarry Glen Ross; Ehi, chi ha ucciso le luci di Klieg?
Problema:
L'esecuzione di una corrispondenza stringa fuzzy su questi record stabilirà alcune relazioni, ma non altre, anche se un lettore umano potrebbe selezionarle dal contesto in serie di dati molto più grandi.
Come faccio a trovare la relazione che suggerisce # 3 in relazione al # 4? Entrambi possono essere facilmente collegati al numero 1, ma non tra loro.
Esiste un nome (googlable) per questo tipo di dati o struttura? Che tipo di algoritmo sto cercando?
Obiettivo:
Dato 1.000 titoli, un sistema che suggerisce automaticamente che questi 5 elementi sono tutti probabilmente sulla stessa cosa.
Per essere onesti, è passato così tanto tempo da quando ho programmato che non riesco a capire come articolare correttamente questo problema. (Non so cosa non so, se questo ha senso).
Questo è un progetto personale e lo sto scrivendo in Python. Grazie in anticipo per qualsiasi aiuto, consiglio e indicazioni!