Avendo passato molto tempo a lavorare in aziende di software che si occupano di set di dati di dimensioni medio-grandi, ho visto che un punto debole nei loro processi è spesso la preparazione di file di dati per il caricamento nei database. Ad esempio, la ricerca di errori di formattazione, spazi bianchi particolari o caratteri di fine riga, discussioni con formati Unicode, questo genere di cose.
Tutti quelli che conosco hanno a che fare con questo in modo personalizzato perché i requisiti sono così vari e spesso unici per le aziende coinvolte.
Di solito mi diverto solo in una combinazione di editor esadecimali, Excel, PowerShell e SQL per portare a termine il lavoro. Ma questo è un problema così perenne che trovo difficile credere che non ci siano già alcuni standard per prendere parte al lavoro di base del processo.
Esiste una tecnica standard su misura per la pulizia dei file di dati?