Panoramica
Ci sono molte possibili rappresentazioni, e quindi schemi di database, per la memorizzazione di date sfocate (o anche solo date sfocate):
- Data-ora e codice che indicano la precisione o accuratezza
- Data-ora e intervallo in cui esistono diverse possibilità per rappresentare un intervallo:
- Rappresenta tutti gli intervalli come quantità intera (o altra quantità numerica) di alcune unità fisse, ad es. giorni, minuti, nanosecondi.
- Rappresenta un intervallo sia come numero intero (o altra quantità numerica) che come codice che indica le sue unità.
- Avvia e termina le date
- Stringa
- Distribuzione della probabilità:
- Quantità decimali o in virgola mobile per i parametri che specificano una distribuzione specifica in una particolare famiglia, ad es. media e deviazione standard di una distribuzione normale.
- Funzione di distribuzione della probabilità, ad es. come codice (di ricerca) (potenzialmente con parametri di valori specifici) o come espressione in un linguaggio, formato o rappresentazione sufficientemente espressivi.
[1], [2] e [3] sono tutti intervalli (implicitamente) uniformi, cioè un insieme di (ugualmente) possibili punti nel tempo.
[4] è il più espressivo, cioè quando si consente qualsiasi frase o frase (o almeno arbitrariamente lunga) scritta in linguaggio. Ma è anche il più difficile da lavorare. Nel limite, l'IA a livello umano sarebbe necessaria per gestire valori arbitrari. In pratica, l'intervallo di valori possibili dovrebbe essere limitato severamente e valori "strutturati" alternativi sarebbero probabilmente preferiti per molte operazioni, ad es. ordinamento, ricerca.
[5] è probabilmente la rappresentazione compact più generale che è (in qualche modo) pratica.
Intervalli uniformi
Gli intervalli uniformi sono il modo più semplice e compatto per rappresentare un insieme di (possibili) valori di data-ora.
Per [1], le parti del valore di data e ora vengono ignorate, cioè le parti corrispondenti a unità più fini della precisione o accuratezza indicate; altrimenti questo è equivalente a [2] e il codice di precisione / precisione è equivalente a un intervallo con le stesse unità (e una quantità implicita di 1).
[2] e [3] sono espressamente equivalenti. [1] è strettamente meno espressivo di entrambi, in quanto vi sono intervalli efficaci che non possono essere rappresentati da [1], es. una data di sfocatura equivalente a un intervallo di 12 ore che si estende su un limite di data.
[1] è più semplice da inserire per gli utenti rispetto a qualsiasi altra rappresentazione e in genere dovrebbe richiedere (almeno leggermente) una minore digitazione. Se i tempi di data possono essere inseriti in varie rappresentazioni di testo, ad es. "2013", "2014-3", "2015-5-2", "30/07/2016 11p", "31-07-2011 18:15", la precisione o la precisione potrebbero anche essere desunte automaticamente dall'input .
La precisione o precisione di [1] è anche la più semplice da convertire in un modulo da trasmettere agli utenti, ad es. "2015-5 con accuratezza mensile" a "Maggio 2015", contro "13 maggio 2015 2p, più o meno 13,5 giorni" (nota che quest'ultima non può essere rappresentata comunque da [1]).
stringhe
In pratica, i valori stringa dovranno essere convertiti in altre rappresentazioni per interrogare, ordinare o confrontare in altro modo più valori. Quindi, mentre qualsiasi linguaggio naturale (umano) scritto è strettamente più espressivo di [1], [2], [3] o [5], non abbiamo ancora i mezzi per gestire molto al di là delle rappresentazioni o dei formati standard di testo. Dato che, questa è probabilmente la rappresentazione meno utile di per sé .
Un vantaggio di questa rappresentazione è che i valori dovrebbero, in pratica, essere presentabili agli utenti così come sono e non richiedere che la trasformazione sia facilmente comprensibile.
Distribuzioni di probabilità
Le distribuzioni di probabilità generalizzano le rappresentazioni dell'intervallo uniforme [1], [2], [3] e (discutibilmente) sono equivalenti alla rappresentazione della stringa (generale) [4].
Un vantaggio delle distribuzioni di probabilità sulle stringhe è che il primo non è ambiguo.
[5-1] sarebbe appropriato per valori che (principalmente) si conformano a una distribuzione esistente, ad es. un valore di data-ora emesso da un dispositivo per il quale le misure sono note (o pensate) per conformarsi a una distribuzione specifica.
[5-2] è probabilmente il modo migliore (un po ') pratico per compattare rappresentare valori arbitrari "fuzzy datetime". Ovviamente la computabilità delle specifiche distribuzioni di probabilità usate è importante e ci sono problemi decisamente interessanti (e forse impossibili) da risolvere quando si interrogano, si ordinano o si confrontano valori diversi, ma molto probabilmente è già noto o risolto da qualche parte nell'attuale letteratura matematica e statistica quindi questo rappresenta sicuramente una rappresentazione estremamente generale e non ambigua.