Capçalera Això és Una Nota de veu
Logotip de Ràdio Tàrrega
Nota 197. Veus sintètiques RTVE IA

Nota 197. Veus sintètiques

Les veus sintètiques són expressions orals generades per ordinadors a partir de textos, mitjançant tecnologies avançades de síntesi vocal, reproduint amb fidelitat el to, l’entonació, el ritme i, fins i tot, certa expressivitat de la parla humana.

Evolució tecnològica i característiques

En els seus inicis, la síntesi de veu produïa resultats mecànics i artificials. Amb l’evolució de les xarxes neuronals profundes i dels algoritmes d’intel·ligència artificial, han sorgit les anomenades veus neurals, capaces d’imitar amb precisió les característiques humanes. Això permet transmetre informació no sols de manera clara, sinó també amb l’emoció i naturalitat pròpies de la comunicació oral.

Àmbits d’aplicació

Les aplicacions de les veus sintètiques són molt diverses. 

Per a persones amb discapacitats visuals o dificultats de lectura, els lectors de pantalla que utilitzen aquesta tecnologia milloren l’accessibilitat a la informació, promovent una inclusió real en la societat digital. 

A més, assistents virtuals com Siri, Alexa o Google Assistant es basen en veus sintètiques per oferir una interacció més natural i intuïtiva. 

En l’àmbit educatiu, la conversió de textos en narracions permet la creació d’audiollibres i recursos didàctics en diversos idiomes, adaptant-se a diferents estils d’aprenentatge i millorant l’accessibilitat dels continguts.

Reptes i qüestions ètiques

Tot i els seus innegables avantatges, l’ús de veus sintètiques comporta també desafiaments importants. Encara que han aconseguit un alt grau de naturalitat, sovint no transmeten la subtilesa emocional d’una interpretació humana, fet clau en certes situacions comunicatives. 

A més, la possibilitat de generar àudios molt realistes obre la porta als enregistraments hipertrucats, coneguts com a deepfakes, que poden utilitzar-se per manipular, desinformar, difamar o dur a terme atacs de suplantació d’identitat. Davant aquest risc, es desenvolupen eines d’intel·ligència artificial per diferenciar entre gravacions autèntiques i les generades artificialment. 

També planteja dubtes sobre el futur dels professionals de la veu, com locutors i actors de doblatge, cosa que requereix trobar un equilibri que respecti l’experiència humana sense desaprofitar els avantatges tecnològics.

El cas pràctic dRTVE IA

RTVE ha impulsat un projecte innovador en col·laboració de les empreses Narrativa i Monoceros Labs, així com amb les universitats de Castella-la Manxa i Lleida

En aquest projecte pilot, es fan servir veus sintètiques per locutar la informació sobre el temps de les poblacions lleidatanes de Bossòst, El Soleràs, La Pobla de Cérvoles, Llimiana i Torà, utilitzant la variant occidental del català.

Les veus creades reprodueixen els accents i particularitats lingüístiques de cada zona, oferint una experiència propera, personalitzada i culturalment arrelada. Aquest exemple no sols posa de manifest les capacitats tècniques de la síntesi vocal actual, sinó que també ressalta el seu potencial per preservar i promoure la diversitat lingüística.

Per a més informació sobre aquest projecte, pots consultar el web rtveia.es