Sto facendo un po 'di scraping di dati da siti Web, è un compito abbastanza semplice, ottenere dati da alcune colonne, tuttavia, quelle colonne possono essere vuote, stringhe o numeri interconnessi in una singola colonna. Ora la mia domanda è: qual è la migliore strategia per portare i dati "sporchi" in modo coerente in una tabella o schema di database per persistere? Il problema principale qui sono i diversi tipi di dati che potrei incontrare (lasciamo fuori le relazioni, le chiavi esterne ecc. Come quelle che non svolgono ancora un ruolo). L'impostazione di ogni colonna come stringa è errata, poiché anch'io farei l'analisi dei dati sui numeri successivamente.
I valori possono anche essere vuoti o avere valori stringa se non sono esistenti. Quindi, qual è l'approccio migliore per pulire quei dati se vuoi mantenerli in una tabella, oppure esiste una guida di buone pratiche "generale" Lì fuori o un libro che qualcuno mi può raccomandare?