Recentemente mi è stato assegnato il compito di creare un identificatore di nomi di entità come parte di un progetto. L'obiettivo era analizzare una determinata frase e trovare tutte le possibili combinazioni delle entità.
Un approccio suggerito consisteva nel mantenere una tabella di ricerca per tutte le parole del connettore note come articoli e congiunzioni, rimuoverle dall'elenco delle parole dopo aver diviso la frase sulla base degli spazi. Questo lascerebbe fuori le Entità Nome nella frase.
Viene quindi eseguita una ricerca per queste entità identificate su un'altra tabella di ricerca che le associa al tipo di entità, ad esempio se la frase era: Remember the Titans was a movie directed by Boaz Yakin
, i possibili risultati sarebbero:
{Remember the Titans,Movie} was {a movie,Movie} directed by {Boaz Yakin,director}
{Remember the Titans,Movie} was a movie directed by Boaz Yakin
{Remember the Titans,Movie} was {a movie,Movie} directed by Boaz Yakin
{Remember the Titans,Movie} was a movie directed by {Boaz Yakin,director}
Remember the Titans was {a movie,Movie} directed by Boaz Yakin
Remember the Titans was {a movie,Movie} directed by {Boaz Yakin,director}
Remember the Titans was a movie directed by {Boaz Yakin,director}
Remember the {the titans,Movie,Sports Team} was {a movie,Movie} directed by {Boaz Yakin,director}
Remember the {the titans,Movie,Sports Team} was a movie directed by Boaz Yakin
Remember the {the titans,Movie,Sports Team} was {a movie,Movie} directed by Boaz Yakin
Remember the {the titans,Movie,Sports Team} was a movie directed by {Boaz Yakin,director}
La tabella di ricerca delle entità qui conterrà i seguenti dati:
Remember the Titans=>Movie
a movie=>Movie
Boaz Yakin=>director
the Titans=>Movie
the Titans=>Sports Team
Un'altra logica alternativa che è stata avanzata è stata la costruzione di un albero della frase grezzo che avrebbe contenuto le parole del connettore nella tabella di ricerca come nodi parent e fare una ricerca nella tabella delle entità per il nodo foglia che potrebbe contenere le entità. L'albero che è stato costruito per la frase sopra sarebbe:
La domanda che ho di fronte è i benefici dei due approcci, dovrei andare per l'approccio ad albero per rappresentare l'analisi della frase, poiché fornisce una struttura più semantica? C'è un approccio migliore che dovrei risolvere per risolverlo?