Sto scrivendo uno strumento che darà agli utenti la possibilità di riassumere il contenuto del testo su una pagina web, evidenziando il testo che desiderano riassumere.
Finora, ho ricevuto risultati con cui posso lavorare per ottimizzare ulteriormente l'algoritmo, ma solo quando applicato a singoli paragrafi. Quando vengono selezionati più paragrafi, il riepilogo non ha molto successo in quanto di solito si concentra su una parte importante dell'input di testo selezionato, ignorando altre parti che dovrebbero essere menzionate nel riepilogo. Questo perché l'intero algoritmo funziona attorno alla determinazione della frase più importante di un paragrafo (o in questo caso, più paragrafi combinati in un grande "paragrafo"), e quindi determinare quali altre frasi sono correlate / di importanza a questa "frase centrale" . L'algoritmo utilizza il riepilogo automatico estrattivo ( spiegazione su WikiPedia ).
Dato che un singolo paragrafo di solito tratta un soggetto principale, questo algoritmo funziona bene in questi casi, ma quando un grande testo con più paragrafi (e quindi di solito più soggetti principali), dal sommario risultante mancano parti importanti.
La mia domanda è: come posso ottenere risultati sintetici succinti e qualitativi quando gestisco un testo con più paragrafi quando utilizzo il mio approccio "core sentence" senza ricorrere ad un algoritmo come TextRank
(che funziona bene ma fornisce sommari che sono troppo lungo, spesso contenente il 60-70% del testo originale) - o dovrei costringere i miei utenti a riassumere paragrafo per paragrafo (non ho ancora trovato un modo affidabile per determinare correttamente i paragrafi in un testo quando non ci sono \n\n
caratteri o <p>
-tags tra i paragrafi per dividere l'input su).