Sto cercando di usare una rete neurale per l'estrazione delle informazioni. Voglio estrarre un nome umano specifico (nome della persona / persone con cancro) da un documento che potrebbe avere molti nomi. Ho migliaia di documenti che contengono un nome simile. So che questo può essere fatto rigorosamente con la PNL, ma sto cercando una soluzione di apprendimento automatico supervisionata.
Posso estrarre tutti i nomi umani dal documento usando la PNL. Attualmente sto usando CountVectorizer () di scikit-learn per inserire i miei documenti in una rete neurale. Voglio anche inserire un modello word2vec addestrato individualmente su ciascun documento nella stessa rete neurale, così la rete avrà una certa comprensione della relazione tra il nome umano e il "cancro". So che potrei addestrare un modello word2vec su tutti i miei documenti e memorizzarlo nel livello di incorporamento in un RNN, ma sono specificamente alla ricerca di modelli word2vec per ogni singolo documento passato come input nel mio NN. Ciò consentirebbe che la relazione tra il nome umano e il "cancro" sia specifica per un documento e non per l'intero corpus.
Ho anche intenzione di aggiungere ciascun nome umano in un documento al loro rispettivo documento e inserirlo nella mia rete neurale. L'intera rete avrebbe un'uscita binaria "ha un cancro" o "non ha il cancro".
Eg. Il documento A contiene nomi umani "a", "b" e "c" dove "b" ha il cancro. Parte del mio set di allenamento sarebbe A + a - > "nessun cancro", A + b - > "cancro", A + c - > "nessun cancro"
Gli input di esempio sopra includeranno preferibilmente anche il modello word2vec per il Documento A se questo è possibile.
Puoi passare un intero modello word2vec come input per una rete neurale e, in caso affermativo, come sarebbe ad un livello elevato? Dovrei formattare il mio modello word2vec in un certo modo?