un algoritmo di classificazione valido per i post di facebook

-2

Sto creando un sito web che raccoglierà post dalle pagine di Facebook per mostrare ai post degli utenti a cui sono interessati (come il mio progetto di laurea).

Mi piacerebbe essere in grado di classificare i post che contengono le parole che vengono interrogate. Quindi, io uso ( solr ) per l'indicizzazione del testo completo che mi permette di ottenere in modo effcace i post contenenti le parole che l'utente cerca.

Ora, sto cercando una funzione di posizionamento per restituire prima i risultati di ricerca più pertinenti. Ma ci sono molte variabili che potrebbero influenzare la rilevanza e il posizionamento del post. Ho trovato questi fattori:

  1. data del post.

  2. Mi piace il numero del post.

  3. numero commenti del post (non molto corretto).

  4. la pagina pubblicata è stata verificata?

  5. i mi piace per la pagina pubblicata.

  6. posizione della pagina e dell'utente.

Ho bisogno di una formula per combinare questi fattori e penso che manchi qualcosa: ci deve essere una ponderazione per le parole chiave di ricerca stesse nel post. E forse mi manca qualcosa di più?

C'è un altro modo per determinare la pertinenza?

Alcune informazioni aggiuntive:

  • Penso che ci sia un fattore importante che non sto utilizzando. Questo fattore dovrebbe occuparsi delle altre parole chiave nel post e vedere se sono correlate alla parola chiave principale.

Prendi, ad esempio, questi due post:

  1. Adoro gli sport.

  2. Adoro il basket, il calcio e tutti gli altri sport e penso che siano molto sani.

Diciamo che questi post hanno gli stessi fattori sopra, ma il secondo ha più parole chiave nel dominio richiesto (sport). Come determinare se il secondo post è più correlato al dominio "sport"?

    
posta Mohammed Nosirat 14.03.2018 - 01:57
fonte

1 risposta

3

Per creare una formula per mappare quei parametri su un valore di classifica, mappare prima ciascun parametro su un numero reale positivo. Quindi un approccio semplice consiste nel rendere una somma ponderata da questi numeri. L'articolo di Wikipedia contiene anche ulteriori collegamenti ad approcci più sofisticati.

Ovviamente, devi determinare "pesi buoni", ma hey, è il tuo progetto di laurea, e dovresti fare qualche ricerca qui da solo.

Inoltre, dovresti sicuramente informarti su come funzionano gli algoritmi di posizionamento delle pagine di quei motori di ricerca più grandi e se ci sono parti di esso applicabile al tuo problema.

Non posso dirti perché la ricerca di Facebook cambia i risultati dopo ogni aggiornamento, e non penso che questa sia una buona domanda per questo sito, dal momento che possiamo anche solo indovinare qui (in realtà vorrei raccomandare di eliminare quella parte dalla domanda , alcuni "poliziotti del sito" qui cercano spesso un motivo per chiudere le domande perché contengono una sezione secondaria non pertinente).

Il fattore mancante che stai cercando potrebbe essere il numero di parole aggiuntive in quel post che non corrispondono esattamente a nessuna delle parole chiave di ricerca, ma sono "semanticamente correlate" a uno o più di esse. Quindi come si misura "semanticamente correlato"? In realtà, non sono un esperto in questo, ma AFAIK è un'intera area di ricerca scientifica e strumenti come CoreNLP o SML potrebbe valere la pena provare.

    
risposta data 14.03.2018 - 02:53
fonte

Leggi altre domande sui tag