Strategia di progettazione software per uno strumento di machine learning che emette un sottoinsieme dell'input di testo (Information Extraction)?

Question

Strategia di progettazione software per uno strumento di machine learning che emette un sottoinsieme dell'input di testo (Information Extraction)?

2

Diciamo che ho migliaia di pdf ciascuno di circa 30k parole scritte in inglese colloquiale. In ciascuno dei pdf c'è un nome / nome di una persona / persone che fa snowboard. Ci sono anche molti altri nomi. Ho bisogno di estrarre il nome (s) dello snowboarder (s) da qualsiasi futuro pdf. Quali sono alcuni strumenti / metodi con cui puoi affrontare questo problema?

Ho appena iniziato a conoscere Natural Language Processing e Machine Learning un paio di settimane fa. Ho usato Python's NLTK per filtrare i miei dati e ho usato scikit-learn per le mie classificazioni e le soluzioni di classificazione multilabel relative ad altre domande a cui voglio rispondere sullo stesso set di dati, ma questo esempio di snowboarder non è classificazione. So che posso usare rigorosamente una soluzione NLP ma voglio provare ad avere un modello ML per riconoscere i pattern nel testo perché tutti i documenti sono formattati in modo simile (e ho molti documenti con cui allenarmi e sono disposto a etichettare manualmente ).

Sono stato in grado di ottenere qualche successo nell'adottare una rete neurale word2vec su ogni singolo documento. Ho quindi verificato la similarità del modello ( model.wv.similarity(HUMAN_NAME, 'snowboard') ) tra ciascun nome in un elenco di nomi umani e la parola "snowboard", e la più simile è stata la mia risposta finora. So che ci deve essere una soluzione più eloquente. So che i modelli Sequence to Sequence e la modellazione dell'argomento potrebbero essere i miei prossimi passi. Qualcuno può indicarmi la direzione giusta se hanno un'idea migliore?

python machine-learning natural-language-processing python-3.x neural-networks

posta Hiding 01.02.2018 - 18:05

fonte

0 risposte

Leggi altre domande sui tag python machine-learning natural-language-processing python-3.x neural-networks

presentazione corretta di più licenze (compatibili) che hanno ispirato un singolo file sorgente Dipendenze tra moduli solo funzioni: hardcoding vs alternative