Strategia di progettazione software per uno strumento di machine learning che emette un sottoinsieme dell'input di testo (Information Extraction)?

2

Diciamo che ho migliaia di pdf ciascuno di circa 30k parole scritte in inglese colloquiale. In ciascuno dei pdf c'è un nome / nome di una persona / persone che fa snowboard. Ci sono anche molti altri nomi. Ho bisogno di estrarre il nome (s) dello snowboarder (s) da qualsiasi futuro pdf. Quali sono alcuni strumenti / metodi con cui puoi affrontare questo problema?

Ho appena iniziato a conoscere Natural Language Processing e Machine Learning un paio di settimane fa. Ho usato Python's NLTK per filtrare i miei dati e ho usato scikit-learn per le mie classificazioni e le soluzioni di classificazione multilabel relative ad altre domande a cui voglio rispondere sullo stesso set di dati, ma questo esempio di snowboarder non è classificazione. So che posso usare rigorosamente una soluzione NLP ma voglio provare ad avere un modello ML per riconoscere i pattern nel testo perché tutti i documenti sono formattati in modo simile (e ho molti documenti con cui allenarmi e sono disposto a etichettare manualmente ).

Sono stato in grado di ottenere qualche successo nell'adottare una rete neurale word2vec su ogni singolo documento. Ho quindi verificato la similarità del modello ( model.wv.similarity(HUMAN_NAME, 'snowboard') ) tra ciascun nome in un elenco di nomi umani e la parola "snowboard", e la più simile è stata la mia risposta finora. So che ci deve essere una soluzione più eloquente. So che i modelli Sequence to Sequence e la modellazione dell'argomento potrebbero essere i miei prossimi passi. Qualcuno può indicarmi la direzione giusta se hanno un'idea migliore?

    
posta Hiding 01.02.2018 - 19:05
fonte

0 risposte