La migliore strategia per dati "puliti" o tipi di dati per i database? [chiuso]

-1

Sto facendo un po 'di scraping di dati da siti Web, è un compito abbastanza semplice, ottenere dati da alcune colonne, tuttavia, quelle colonne possono essere vuote, stringhe o numeri interconnessi in una singola colonna. Ora la mia domanda è: qual è la migliore strategia per portare i dati "sporchi" in modo coerente in una tabella o schema di database per persistere? Il problema principale qui sono i diversi tipi di dati che potrei incontrare (lasciamo fuori le relazioni, le chiavi esterne ecc. Come quelle che non svolgono ancora un ruolo). L'impostazione di ogni colonna come stringa è errata, poiché anch'io farei l'analisi dei dati sui numeri successivamente.

I valori possono anche essere vuoti o avere valori stringa se non sono esistenti. Quindi, qual è l'approccio migliore per pulire quei dati se vuoi mantenerli in una tabella, oppure esiste una guida di buone pratiche "generale" Lì fuori o un libro che qualcuno mi può raccomandare?

    
posta user2774480 24.11.2017 - 22:27
fonte

1 risposta

0

Values can also be empty or have string values if they are not existent.

Codd e Date erano piuttosto irremovibili sul fatto che se non si conosce un valore numerico (non esiste), si dovrebbe memorizzare NULL nella relazione.

Se una colonna può avere valori numerici e stringa, sembra che tu stia cercando di stipare troppi concetti in troppe poche colonne. Prendi in considerazione l'aggiunta della colonna occasionale.

Quando si memorizzano valori raschiati in un VARCHAR, provare a eseguire alcune convalide e generare un'eccezione se fallisce. Quindi il tuo codice di analisi a valle può trarre vantaggio dal fatto che, ad esempio, la colonna DOW contiene 7 valori 'Sun' .. 'Sat', in modo che il codice non debba preoccuparsi delle varianti dispari.

    
risposta data 25.11.2017 - 07:38
fonte

Leggi altre domande sui tag