Strumenti per operare su grandi quantità di dati di testo

3

Devo gestire ed elaborare circa 5 milioni di articoli di notizie, una quantità abbastanza piccola da adattarsi a un desktop di materie prime, ma troppo grande per essere processata in serie. Finora, ho usato Python / pickle per la serializzazione, ma questo mi sta facilmente sfuggendo di mano. Tuttavia, non ho un server molto meno un cluster immediatamente disponibile per lo storage distribuito.

Quali strumenti posso utilizzare per archiviare, interrogare e operare su questa dimensione di un set di dati? La maggior parte delle operazioni che devo fare possono essere formulate come operazioni sulla mappa; l'unica eccezione è che la parte di elaborazione del linguaggio naturale che viene gestita chiamando la suite di software CoreNLP di Stanford (richiede alcuni secondi per caricare alcuni file di parametri di grandi dimensioni).

    
posta duckworthd 18.04.2012 - 04:41
fonte

1 risposta

1

Molte persone parlano molto di Solr . È specializzato nella ricerca di grandi quantità di testo e dovrebbe essere utilizzabile da Python.

Suppongo che potresti anche fare qualcosa di personalizzato con Hadoop . Supporta direttamente le operazioni di riduzione delle mappe, anche se potrebbe essere più semplice lavorare in Java rispetto a Python con Hadoop.

    
risposta data 23.04.2012 - 01:35
fonte

Leggi altre domande sui tag