Come creare una rete semantica come wordnet basata su Wikipedia?

1

Sono uno studente universitario e devo creare una rete semantica basata su Wikipedia. Questa rete semantica sarebbe simile a Wordnet (eccetto che si basa su Wikipedia e si occupa di "flussi di testo / argomenti" piuttosto che di semplici parole, ecc.) E sto pensando di usare i dump di Wikipedia XML per lo scopo.

Credo di aver bisogno di imparare l'analisi di un XML e " alcune altre cose " relative a NLP e probabilmente Machine Learning, ma non sono sicuro di nulla in questo contesto dopo l'analisi XML.

  • È il passo iniziale: il dump XML analizza nel testo una buona idea / passaggio? Qualche alternativa?
  • Quali sarebbero i passaggi necessari dopo l'analisi dell'XML in testo per creare una rete semantica funzionale?
  • Quali sono le cose / concetti che dovrei imparare per poterli fare?
  • Non sto chiedendo direttamente le raccomandazioni del libro, ma se hai letto un libro / articolo che insegna qualcosa di utile / correlato, ti preghiamo di menzionarlo. Questo può includere riferimenti ad implementazioni già esistenti riguardanti l'argomento.

Per favore correggimi se ho sbagliato da qualche parte. Grazie!

EDIT: il prodotto finale dovrebbe essere come una rete semantica completa (come Conceptnet o Cyc ecc.), quindi non posso usare cose come Semantic Mediawiki.

(A pensarci bene, sembra che avrei dovuto fare questa domanda sulla linguistica e non qui ...)

    
posta Forbidden Overseer 25.06.2012 - 21:10
fonte

2 risposte

2

Wikipedia è eccezionale per l'elaborazione umana, non tanto per l'elaborazione della macchina. Dai un'occhiata al link per ottenere i dati estratti da Wikipedia in un formato elaborabile dalla macchina. Il loro set di dati utilizza OWL come rappresentazione della conoscenza per fornire un contesto semantico al set di dati di Wikipedia tramite metadati RDF (basati su XML).

Una volta che hai il set di dati, dovrai essere in grado di eseguire query sui tuoi dati. SPARQL è particolarmente utile per interrogare i dati esposti in questo formato. Considera come definisci un flusso di dati, come implementi le strutture dei dati e come implementa i tuoi algoritmi che interrogano i tuoi dati per connetterli tutti.

Puoi controllare le domande con tag DBbedia per ulteriori indicazioni.

link

link

    
risposta data 26.06.2012 - 22:42
fonte
2

Dato che hai menzionato la rete semantica, potresti usare semantic mediawiki , penso che il processo sarà scaricare i dump del database di Wikipedia e aggiungendo proprietà semantiche ovunque sia necessario. Inoltre sei a conoscenza del progetto Wikidata ??

    
risposta data 25.06.2012 - 21:42
fonte