In che modo gli assistenti personali tipicamente generano frasi?

8

Questa è una sorta di follow-up di questa domanda sulle direzioni della ricerca NLG nel campo della linguistica.

In che modo gli strumenti dell'assistente personale come Siri, Google Now o Cortana eseguono la generazione in linguaggio naturale (NLG)? In particolare, la parte di frase di testo . Non mi interessa la parte text-to-speech, solo la parte di generazione del testo.

Non sto cercando esattamente come ciascuno lo fa, in quanto tali informazioni non sono probabilmente disponibili.

Mi chiedo quale setup è necessario per implementare la generazione di frasi di quella qualità?

  • Di quale tipo di dati avresti bisogno in un database (ad alto livello)?
    • Richiede avere un dizionario di ogni parola possibile e il suo significato, insieme a molti libri / corpus annotati e analizzati statisticamente?
    • Richiede effettivamente che le persone registrino le conversazioni in modo naturale (ad esempio da programmi TV o podcast), trascrivendole in testo e aggiungendole in qualche modo al loro "sistema"? (per ottenere frasi veramente "umane")
    • O ci sono solo semplici schemi di frase basati sulla sintassi che stanno usando, senza un gigantesco database "significato" semantico? Dove qualcuno ha appena scritto una serie di espressioni regolari tipo cosa ..
  • Quali sono gli algoritmi che vengono utilizzati per frasi simili a quelle umane scritte in modo naturale?

Una delle ragioni per cui ci si chiede è che sembra che il campo NLG sia molto lontano dall'essere in grado di fare ciò che Siri e Google Now e altri stanno realizzando. Quindi che tipo di cose stanno facendo? (Solo per la parte di generazione del testo della frase).

    
posta Lance Pollard 18.01.2015 - 19:44
fonte

2 risposte

3

Siri tipicamente non "genera" frasi. Analizza quello che dici e "riconosce" determinate parole chiave, certo, e per le risposte comuni, userà un modello, come I found [N] restaurants fairly close to you o I couldn't find [X] in your music, [Username].

Ma la maggior parte delle sue risposte sono in scatola, a seconda della sua interpretazione del tuo discorso, oltre a un generatore di numeri casuali per scegliere una risposta creativa a una domanda irriverente. Semplicemente chiedendo a Siri "Quanta legna può mandare un mandrino di legno?" o "Qual è il significato della vita?" genererà una varietà di risposte. Ci sono numerosi riferimenti e battute culturali incorporate (e ripetute testualmente) che dimostrano con relativa certezza che Siri non sta solo generando spontaneamente la maggior parte del suo testo, ma estrapolandolo da un database di qualche tipo. È probabile che le domande in arrivo vengano salvate su un server centrale, dove nuove risposte a tali domande possono essere create dai dipendenti Apple, consentendo a Siri di "apprendere".

La sua parte text-to-speech è abbastanza buona, tuttavia, che a volte sembra che le risposte vengano generate ...

    
risposta data 15.05.2015 - 18:40
fonte
1

Se hai una cosiddetta rappresentazione sintattica profonda di ciò che vuoi generare, ad esempio leggi (lui, libro) , è relativamente facile generare la sua rappresentazione lineare. Uno ha bisogno di una grammatica formale che descriva la sintassi della lingua e un lessico morfologico per le forme flesse. La generazione è un ordine di grandezza più semplice dell'analisi (poiché uno è "creare ambiguità", non risolverlo).

Se si dispone solo di una rappresentazione logica (ad esempio, nella logica del primo ordine), le cose diventano più complicate. Diciamo che hai acquistare (Giovanni, libro) ∧ leggi (Giovanni, libro) . Si potrebbero generare due frasi come John ha comprato un libro. John ha letto un libro ma sembra innaturale. Un risultato migliore sarebbe John ha comprato un libro. Lo ha letto. Ancora meglio sarebbe generare una frase composta con e . La rappresentazione logica potrebbe essere simile alla rappresentazione sintattica di cui sopra ma non ci sono pronomi, confini di clausole, ecc. La fase di tradurre una rappresentazione puramente logica di ciò che si vuole trasmettere in qualcosa di più "umano" si chiama "lingua pianificazione "o" pianificazione della frase "ed è il compito più difficile nel processo.

    
risposta data 13.03.2015 - 20:35
fonte