Sono uno studente universitario e devo creare una rete semantica basata su Wikipedia. Questa rete semantica sarebbe simile a Wordnet (eccetto che si basa su Wikipedia e si occupa di "flussi di testo / argomenti" piuttosto che di semplici parole, ecc.) E sto pensando di usare i dump di Wikipedia XML per lo scopo.
Credo di aver bisogno di imparare l'analisi di un XML e " alcune altre cose " relative a NLP e probabilmente Machine Learning, ma non sono sicuro di nulla in questo contesto dopo l'analisi XML.
- È il passo iniziale: il dump XML analizza nel testo una buona idea / passaggio? Qualche alternativa?
- Quali sarebbero i passaggi necessari dopo l'analisi dell'XML in testo per creare una rete semantica funzionale?
- Quali sono le cose / concetti che dovrei imparare per poterli fare?
- Non sto chiedendo direttamente le raccomandazioni del libro, ma se hai letto un libro / articolo che insegna qualcosa di utile / correlato, ti preghiamo di menzionarlo. Questo può includere riferimenti ad implementazioni già esistenti riguardanti l'argomento.
Per favore correggimi se ho sbagliato da qualche parte. Grazie!
EDIT: il prodotto finale dovrebbe essere come una rete semantica completa (come Conceptnet o Cyc ecc.), quindi non posso usare cose come Semantic Mediawiki.
(A pensarci bene, sembra che avrei dovuto fare questa domanda sulla linguistica e non qui ...)