Persistente elaborazione dei dati analizzati in linguaggio naturale

Question

Persistente elaborazione dei dati analizzati in linguaggio naturale

#1 da (3 voti)
#2 da (2 voti)

12

Recentemente ho iniziato a sperimentare con l'elaborazione del linguaggio naturale (NLP) usando CoreNLP di Stanford , e sono chiedendo quali sono alcuni dei modi standard per memorizzare i dati analizzati dalla PNL per qualcosa come un'applicazione di text mining?

Un modo in cui pensavo potesse essere interessante è quello di memorizzare i bambini come un elenco di adiacenze e fare buon uso delle query ricorsive (Postgres supporta questo e ho trovato che funziona molto bene).

Ma presumo che ci siano probabilmente molti modi standard per farlo a seconda del tipo di analisi che viene fatta dalle persone che lavorano nel campo nel corso degli anni. Quindi quali sono le strategie di persistenza standard per i dati analizzati dalla PNL e come vengono utilizzati?

database natural-language-processing parsing persistence

posta Arseni Mourzenko 17.10.2012 - 20:59

fonte

2 risposte

2

Una buona strategia consiste nell'utilizzare un buon database in primo piano Reduce / Map, noto anche come database NOSQL, come MongoDB o CouchDB.
Questo database consente di creare semplici regole codificate su cui i termini e le adiacenze della mappa e semplici regole codificate per ridurre (anche "gruppo") informazioni.

Puoi iniziare qui:
link
link

risposta data 06.11.2012 - 16:41

fonte

Leggi altre domande sui tag database natural-language-processing parsing persistence

Esiste un modo per creare una libreria .Net per Windows e Mac, con riferimenti dipendenti dalla piattaforma? Utilizzo del software di tracciamento dei bug / rilascio dei bug per discutere domande di progettazione, nuovi strumenti ecc

score 3 · Accepted Answer

Una volta ho lavorato con un toolkit della PNL e ho incontrato il problema che hai descritto. Penso che ci siano (almeno) due approcci:

(approccio implicito), usa memoization

In programming languages where functions are first-class objects (such as Lua, Python, or Perl 1), automatic memoization can be implemented by replacing (at run-time) a function with its calculated value once a value has been calculated for a given set of parameters.

Questo era l'approccio che ho usato e potrebbe essere implementato rapidamente; l'inconveniente era che certe strutture di dati più grandi sarebbero state conservate su disco, e mentre il caricamento era di ordini di grandezza più veloce del ricalcolo, ci voleva ancora del tempo.
(esplicito), usa un database, sia esso relazionale o orientato al documento, da archiviare tutti i risultati a cui potresti interessarti in futuro. Ciò richiede più attenzione all'inizio, ma si ripaga a lungo termine.

Forse di interesse:

Elaborazione di testi intensivi dei dati con MapReduce (PDF)

Modifica: Un'altra cosa che ho usato recentemente per calcoli a lungo termine multistep è un framework del flusso di lavoro, di cui esistono decine . Non si tratta veramente di persistenza, ma la persistenza è un passo nel flusso di lavoro. Sto provando luigi per quello e viene, ad es. con le classi di helper di Hadoop e Postgres, che possono eliminare un sacco di codice boilerplate.