Come prendere un file audio, trascrivendolo automaticamente, prendendo l'output e associandolo a una trascrizione

2

Abbiamo trascrizioni di circa 8000 video. Tuttavia, queste trascrizioni non hanno alcun testo temporizzato (ad esempio: non sono codificati nel tempo per il video)

Stiamo cercando di verificare se il software esiste o quale approccio adottare per codificare automaticamente la trascrizione sul video associato.

Il software esiste per fare questo?

In caso contrario, quale approccio software utilizzeresti per realizzare questa impresa?

    
posta Paul Preibisch 03.02.2013 - 14:29
fonte

2 risposte

3

Non sono a conoscenza di alcuna soluzione software completamente automatica, ma questo documento ( Sincronizzazione: sincronizzazione automatica di documenti vocali e di testo ) offre un possibile approccio.

ABSTRACT

In this paper, we present an automatic approach for aligning speech signals to corresponding text documents. For this sake, we propose to first use text-to-speech synthesis (TTS) to obtain a speech signal from the textual representation. Subsequently, both speech signals are transformed to sequences of audio features which are then time-aligned using a variant of greedy dynamic time-warping (DTW). The proposed approach is both efficient (with linear running time), computationally simple, and does not rely on a prior training phase as it is necessary when using HMM-based approaches. It benefits from the combination of a) a novel type of speech feature, being correlated to the phonetic progression of speech, b) a greedy left-to-right variant of DTW, and c) the TTS-based approach for creating a feature representation from the input text documents. The feasibility of the proposed method is demonstrated in several experiments.

    
risposta data 03.02.2013 - 14:55
fonte
0

Adobe Premiere Pro ti consentirà di allegare trascrizioni ai video clip e tenterà di allinearli. Fa un text-to-speech sul video usando la trascrizione come materiale di formazione. È meglio di niente ..... Sfortunatamente, lo fai manualmente e con 8k clip che non sarebbero molto piacevoli.

    
risposta data 04.02.2013 - 05:08
fonte

Leggi altre domande sui tag