Trascrizione del testo di un file audio

Un fedele lettore di queste mie note recentemente mi ha posto una domanda relativa alla possibilità di trascrivere automaticamente l’audio convertendolo in testo. Qualcuno potrebbe dire che l’argomento è già stato trattato in precedenza in un apposito articolo, ma in effetti un aspetto specifico della vicenda può aver lasciato qualche interrogativo.
La questione è relativa alla possibilità di trascrivere un testo presente in un file audio. Chi volesse consultare l’articolo noterà che in effetti si indica questa possibilità, ma non viene data una specifica soluzione. Provvedo quindi in questa sede a rimediare !

Il problema è essenzialmente questo: per poter ottenere la trascrizione del testo presente in un file audio devo essere in grado di indicare al sistema che l’input audio arriva da quel file.

Per quanto riguarda Windows la cosa può essere risolta tramite un interessante software freeware. Ricordo che il software freeware viene fornito gratuitamente, ma i creatori gradiscono senz’altro una donazione per poter continuare nella loro opera.

Il software in questione è VoiceMeeter che può essere scaricato dal sito di VB Audio Software.

voicemeeter

Una volta scaricato si procede con l’installazione dello stesso, cosa che richiede qualche istante, durante l’attesa non vengono fornite particolari segnalazioni; si può quindi avere l’impressione che il sistema sia bloccato. Completata l’installazione si deve procedere necessariamente con il riavvio del sistema.
Una volta rientrati occorre accedere tramite il Pannello di controllo alle impostazioni audio e indicare di usare VoiceMeeter. In riproduzione impostare VoiceMeeter Input come dispositivo predefinito, e nella scheda di registrazione indicare VoiceMeeter Output come dispositivo predefinito.

voicemeeter-input voicemeeter-output

Terminata l’impostazione si consiglia di effettuare una prova per verificare che tutto funzioni come desiderato. Dato che probabilmente non si potrà sentire alcun suono sarà necessario entrare nella console di VoiceMeeter e selezionare gli altoparlanti nella sezione A1 di Hardware Out, che si trova in alto a sinistra. Tutto dovrebbe essere a posto, a questo punto.

Si potrà quindi procedere con la seconda fase, cioè la trascrizione dell’audio. Seguendo le indicazioni proposte nell’articolo citato precedentemente si dovrà solo attivare il file audio (e non il microfono) in modo che venga intercettato dal sistema e usato come fonte per Google Web Speech API che procederà con la trascrizione.

 

VoiceMeeter ha altre interessanti caratteristiche, su cui magari torneremo in un’altra occasione. Qui mi preme sottolineare che, una volta configurato come descritto in precedenza, VoiceMeeter prende il controllo della parte audio del sistema; se viene disattivato (ad esempio in seguito allo spegnimento del pc) non si sentirà più nulla, cosa che si potrebbe riscontrare al successivo uso del computer.

4 comments

  • cristina

    Sto impazzendo ho seguito tutto alla lettera.. ho provato su pc diversi.. aggiornato chrome e tuto il resto.. settato voicemeeter insomma niente.. non registra.. ho provato a riprodurre i file audio con diversi lettori.. niente.. l’unica cosa che ho notato che se apro un video youtube comincia a rilevare la voce a scrivere ma se avvio un file da lettore niente.. perchè?? 🙁

    • Mikis

      Da quello che scrivi sembra essere un problema di selezione dell’input. Purtroppo tutto quello che posso dire è di riprovare a selezionare i vari dispositivi finchè non trovi quello giusto

  • Nicola

    Ho seguito tutto alla lettera ed è “quasi” ok. VoiceMeeter è installato e funziona correttamente. Quando attivo il file audio lo sento in cuffia e vedo i livelli DB su VoiceMeeter. Ho attivato Web Speech API ed impostato Italiano come lingua. A questo punto ho attivato di nuovo il file audio e mi aspettavo di vedere su Web Speech API la trascrizione ed invece non succede nulla e continuo sia a vedere i livelli DB su VoiceMeeter che a sentirlo in cuffia.
    Dove sto sbagliando? Grazie mille

    • Mikis

      Nicola, l’unica cosa che mi viene in mente è la selezione del dispositivo di output, ma probabilmente hai già provato. Hai trovato la soluzione ?

Lascia il tuo commento