Devo gestire ed elaborare circa 5 milioni di articoli di notizie, una quantità abbastanza piccola da adattarsi a un desktop di materie prime, ma troppo grande per essere processata in serie. Finora, ho usato Python / pickle
per la serializzazione, ma questo mi sta facilmente sfuggendo di mano. Tuttavia, non ho un server molto meno un cluster immediatamente disponibile per lo storage distribuito.
Quali strumenti posso utilizzare per archiviare, interrogare e operare su questa dimensione di un set di dati? La maggior parte delle operazioni che devo fare possono essere formulate come operazioni sulla mappa; l'unica eccezione è che la parte di elaborazione del linguaggio naturale che viene gestita chiamando la suite di software CoreNLP di Stanford (richiede alcuni secondi per caricare alcuni file di parametri di grandi dimensioni).