Non è un modo "carino" per farlo, ma puoi fare alcuni esempi, magari a partire da 120 wpm, e confrontarli con una registrazione di controllo della velocità "predefinita" (ovviamente, con tutte le registrazioni che usano la stessa voce e testo). Per maggiore precisione, è possibile caricare i file in qualsiasi applicazione di editing audio di base e visualizzare le forme d'onda per confrontare realmente la velocità di una registrazione e un'altra. Non riesco a immaginare che ci vorrebbe troppo tempo per ridurlo. Lo farei io stesso se avessi tempo in questo momento.
In alternativa, potresti ottenere alcuni esempi di testo con lunghezze conosciute (ad esempio 100 parole, 200 parole, ecc.), registrare la voce in tutte le loro impostazioni predefinite, quindi utilizzare le durate per calcolare il wmp medio di tutte le registrazioni . Con un numero sufficiente di campioni sono sicuro che ti avvicinerai.
EDIT: dopo la prima procedura che ho descritto sopra, ho trovato la frequenza di parlato predefinita di Alex (la voce predefinita) esattamente 175 wpm .
Alle velocità di default e 175 wpm, le due forme d'onda corrispondono perfettamente.