Qual è un modo semplice per memorizzare i dati ai fini del conteggio parole?

1

Sto scrivendo un programma per eseguire la scansione del Web e trovare le parole usate di frequente. Quale sarebbe un buon modo per archiviare i dati? Stavo assottigliando l'uso di un RDBMS con una singola tabella (con colonne 'word' e 'count') ma per qualcosa di così semplice sembra eccessivo.

Ho bisogno di ottenere alcune funzionalità come ordinare per conteggio / trovare n lettere, ecc.

C'è un modo migliore per farlo? O sta usando RDBMS come si fa?

    
posta Can't Tell 18.06.2016 - 17:39
fonte

1 risposta

1

Ho usato sqlite per molti di questi piccoli programmi. È un RDBMS completo, ha una buona impronta di memoria, non ha bisogno di lunghi processi in esecuzione e ha la licenza più permissiva intorno (dominio pubblico).

Ma in realtà, se tutto quello che fai è memorizzare una mappatura della parola da contare, allora quasi qualsiasi cosa farà finché la tua lista di parole si adatterà comodamente alla memoria. Una tabella hash sarebbe la migliore struttura dati.

Una volta ottenuto un ampio campione di dati e si iniziano a vedere i modelli al loro interno, è possibile iniziare a ottimizzare la struttura dei dati in base all'utilizzo.

Altre due opzioni che ti vengono in mente sono Berkeley DB (un'archiviazione di valore-chiave basata su file ad alte prestazioni) E RRDTool, che è altamente ottimizzato per contatori e grafici.

    
risposta data 18.06.2016 - 19:26
fonte

Leggi altre domande sui tag