Sto cercando di scrivere un filtro di Bayes che fungerà da indicatore di argomento per un numero di argomenti con un numero variabile di fonti. Dato un numero molto elevato di feed RSS e qui davvero grandi potrebbero essere solo alcune centinaia solo pochi percento (diciamo il 2%) sono interessanti per un determinato gruppo.
Quello che voglio scrivere (in PHP) è un filtro che posso addestrare per dire che questo è Argomento X e non lo è. Quindi voglio che gli utenti selezionati siano in grado di addestrare ulteriormente il filtro. Ma voglio usare solo la formazione di base per selezionare gli argomenti da contrassegnare come interessanti per Topic X e quindi perfezionare quella raccolta basata sull'addestramento che l'utente ha fornito per fornire i risultati più interessanti per quell'utente rivalutando le probabilità incluso l'addestramento fornito dall'utente nella short list per utente. O magari segnando la short list e selezionando gli elementi "migliori" da mostrare per primi.
Quindi col tempo riuscirò a ottenere una raccolta di dati abbastanza ampia (tutti i titoli e gli scatti di centinaia di feed) e avrò contrassegnato gli elementi del feed "sì" e "no" su un numero non specificato di argomenti e hanno avuto anche utenti così.
Il titolo e il blurb verranno archiviati per una facile visualizzazione in seguito, ma non voglio tenere troppi elementi che sono "no" (fino al 98% immagino). Dato che vado con, diciamo, questa implementazione da GitHub che ho trovato in precedenza oggi link (o si può parlare con il mio) cosa è il modo più efficiente per archiviare i dati necessari per eseguire una valutazione? Sto chiedendo dei problemi se semplicemente provassi a memorizzare i titoli delle notizie, ecc. "Sì", ma memorizzassi una sorta di riassunto per le valutazioni di base "no" e poi risolvilo appena al volo memorizzando il risultato "sì".
Il server con cui devo lavorare sta già facendo un buon lavoro e per questo non mi risparmierà molto.
Quindi il bilanciamento dell'efficienza e dello storage richiede qualcosa che consiglio?