Ho un problema con il requisito di un cliente che vuole importare una stringa di testo html all'interno di un documento csv.
Ad esempio, una versione sterilizzata di una linea di importazione:
"IDNumber,TextIdentifierNumber,<p><strong>Hello, this text is **>** this text. 32 < 64</strong></p>"
Il problema qui non sta importando questo testo, ma parentesi angolari. Questi sono separati dalla loro pratica commerciale quotidiana e sono necessari per indicare una denominazione minore o maggiore.
Sfondo: Al momento il nostro client utilizza un'applicazione Web .NET e un'applicazione di caricamento batch (console), entrambi scritti in Visual Basic .NET 4.0. La nostra applicazione web utilizza un editor WYSIWYG per l'immissione di tale testo e gestiamo tali parentesi angolari in base alle entità e alla codifica indicate.
Il nostro problema è distinguere una parentesi angolare tra una stringa di input ricca di HTML.
Cosa abbiamo fatto fino ad oggi:
Utilizziamo HTMLAgilityPack per analizzare rigorosamente l'HTML e eliminare i tag HTML che non sono consentiti. Sfortunatamente, HTMLAgilityPack rimuove questa parentesi angolare e qualsiasi testo che potrebbe seguire un potenziale tag di chiusura. Questo danneggia male la stringa HTML e causa problemi nei nostri rapporti.
Abbiamo dato il via ad alcune opzioni, come la sostituzione del testo (invio di [LESSTHAN]) da parte del nostro cliente e quindi il nostro codice lo converte in direzione della parentesi angolare corretta. Sfortunatamente, questo sicuramente non funzionerà a causa dei dati di origine provenienti da un altro sistema.