Riepilogo automatico: intero testo o paragrafi

1

Sto scrivendo uno strumento che darà agli utenti la possibilità di riassumere il contenuto del testo su una pagina web, evidenziando il testo che desiderano riassumere.

Finora, ho ricevuto risultati con cui posso lavorare per ottimizzare ulteriormente l'algoritmo, ma solo quando applicato a singoli paragrafi. Quando vengono selezionati più paragrafi, il riepilogo non ha molto successo in quanto di solito si concentra su una parte importante dell'input di testo selezionato, ignorando altre parti che dovrebbero essere menzionate nel riepilogo. Questo perché l'intero algoritmo funziona attorno alla determinazione della frase più importante di un paragrafo (o in questo caso, più paragrafi combinati in un grande "paragrafo"), e quindi determinare quali altre frasi sono correlate / di importanza a questa "frase centrale" . L'algoritmo utilizza il riepilogo automatico estrattivo ( spiegazione su WikiPedia ).

Dato che un singolo paragrafo di solito tratta un soggetto principale, questo algoritmo funziona bene in questi casi, ma quando un grande testo con più paragrafi (e quindi di solito più soggetti principali), dal sommario risultante mancano parti importanti.

La mia domanda è: come posso ottenere risultati sintetici succinti e qualitativi quando gestisco un testo con più paragrafi quando utilizzo il mio approccio "core sentence" senza ricorrere ad un algoritmo come TextRank (che funziona bene ma fornisce sommari che sono troppo lungo, spesso contenente il 60-70% del testo originale) - o dovrei costringere i miei utenti a riassumere paragrafo per paragrafo (non ho ancora trovato un modo affidabile per determinare correttamente i paragrafi in un testo quando non ci sono \n\n caratteri o <p> -tags tra i paragrafi per dividere l'input su).

    
posta Fluppe 02.04.2017 - 06:17
fonte

2 risposte

1

Ho lavorato un paio di anni fa su un progetto simile. L'algoritmo che ho usato è stato quello di segnare le frasi per rilevanza (basato su un certo numero di metriche incluso il primo riferimento alle entità nominate menzionate in seguito, riferimenti precedenti da frasi vicine e così via) e scegliere un numero selezionato dall'utente in base al punteggio, ad eccezione :

  • assicurati sempre che almeno una frase del primo paragrafo sia stata inclusa
  • se il testo era lungo più di 5 paragrafi, assicurati sempre che almeno una frase del secondo paragrafo fosse inclusa
  • assicurati sempre che almeno una frase dell'ultimo paragrafo sia stata selezionata

Le sentenze sono state selezionate una alla volta in modo da poter applicare i bonus in base alla selezione corrente:

  • c'era un bonus per le frasi nei paragrafi che non erano attualmente rappresentati
  • c'era un bonus per la prima e l'ultima occorrenza di qualsiasi entità nominata nella selezione

È stato utilizzato un algoritmo genetico per ottimizzare la ponderazione dei vari contributori al punteggio della frase sulla base di riepiloghi selezionati a mano per un corpus di dimensioni ridotte. I risultati (su notizie brevi) erano abbastanza buoni.

    
risposta data 02.04.2017 - 11:53
fonte
0

Dovresti leggere:

H. P. Luhn. "La creazione automatica di abstracts letterari", IBM Journal of Research and Development, 2, n. 2, 159 (aprile 1958).

Ho trovato una copia al link .

    
risposta data 03.04.2017 - 11:08
fonte

Leggi altre domande sui tag