Per garantire una riproduzione corretta, i dati audio e video DEVONO essere sempre multiplexati insieme alle informazioni di temporizzazione. Questo viene fatto da vari formati contenitore come mp4 o 3gpp o mov .
Nei formati di file i dati audio e video vengono partizionati sotto forma di blocchi e viene contrassegnato il loro tempo di riproduzione. Ciò consente ai giocatori di capire quando visualizzare i video sullo schermo e mettere i campioni audio agli altoparlanti, indipendentemente da come arrivano. Di solito c'è un buffer sufficiente per garantire che esista ancora un tempo sufficiente dopo tutti i ritardi di rete per raggiungere i dati al rendering anche se l'audio e il video hanno una quantità diversa di ritardo durante la trasmissione.
Se si utilizzano formati contenitore come quelli sopra menzionati, RTP non ha bisogno di sapere se un particolare pacchetto è Audio o Video.
Un'altra cosa: SSRC non fornisce realmente alcuna informazione temporale di per sé cruciale. È solo un'etichetta . Ad esempio, se un DVR sta ricevendo dati da 16 telecamere (e 16 microfoni per audio), ha bisogno di riferimento per ciascuna di tali sorgenti. Questo è solo un indirizzo o identificatore, non una fonte di informazioni sul tempo. Quindi, se logicamente, audio e video provengono dalla stessa fonte, possono avere lo stesso tag.