Diciamo che ho le seguenti linee:
Lorem ipsum dolor sit amet, (tag) consectetur adipiscing elit.
Phasellus congue nisi vel lorem dignissim tristique. (tag)
Etiam vulputate lacus nec velit lobortis ut adipiscing mauris condimentum. (tag )
Vestibulum quis nulla id nisi ultricies placerat. (teg)
In tempus vulputate ante, quis suscipit nunc euismod in. (teg )
Phasellus iaculis diam in felis pellentesque tristique. (ta g)
(tag Praesent vestibulum sollicitudin velit, non mollis lacus scelerisque in.
Nunc ac erat enim, at lobortis libero. (interesting)
Dovrebbe esserci un tag in ogni riga racchiusa tra parentesi. Ma come puoi vedere i dati sono molto sporchi e ci sono spazi extra all'interno di tag, genitori mancanti, tag errati, ecc.
Come dovrei identificare le righe contenenti "(tag)" o qualcosa di simile? L'output che mi aspetto nell'esempio è quello di recuperare tutte le righe, tranne l'ultima.
Ho bisogno di confrontare una lunga stringa con una sottostringa più breve, quindi qualcosa come la distanza di Levenshtein non funzionerà (o lo farà?). Le tecniche token sembrano rigide, perché anche se potrei tokenizzare tutto tra parentesi, cosa succede quando manca una parentesi?