Isn't it enough to split a text by whitespace or other characters that
delimit boundaries between words?
In molti casi, l'elaborazione del linguaggio naturale viene utilizzata per selezionare parti di frasi senza necessariamente analizzare l'intera frase. Tuttavia, quei pezzi possono essere composti da più parole, quindi usare lo spazio bianco per rompere semplicemente la frase in parole non è molto utile. Immagina di costruire un database di fatti storici e una piccola porzione del testo di input appare come questa:
Tony Orlando è nato il 3 aprile 1944 a New York City e in seguito si è trasferito nel New Jersey.
In questo caso è probabilmente utile sapere che questo fatto coinvolge una persona, una data, due luoghi, i quali consistono in più parole che non sono molto utili da sole. Un chunker può spezzare quella frase in frasi più utili delle singole parole, come Tony Orlando e New York City e persino nato il 3 aprile 1944 . Identificare termini significativi potrebbe accelerare la ricerca e ottenere risultati migliori.