Un modelo híbrido orientado a la síntesis multimodal del habla

Iriondo, Ignasi; Alías-Pujol, Francesc; Melenchón, Javier; Iriondo, Ignasi; Alías-Pujol, Francesc; Melenchón, Javier

Data de publicació

2002

URI http://hdl.handle.net/20.500.14342/3374

Resum

En este articulo se presenta un sistema de conversión texto-habla de alta calidad utilizando voz segmentada en difonemas y trifonemas. El sistema de síntesis implementado se basa en un modelo híbrido que combina aspectos de un modelo "armónico + ruido", con el que se descompone la señal de voz original en dos componentes y aspectos del TD-PSOLA. Los procesos de análisis y síntesis se realizan síncronamente con e pitch de forma que se pueden conseguir modificaciones prosódicas con un alto grado de naturalidad en el habla generada gracias a la representación parmétrica de la señal de voz. Este sistema resulta una buena solución para la síntesis del habla emocionada que requiere grandes variaciones de la prosodia. El objetivo fina de este proyecto consiste en implementar este modelo hibrido de síntesis audiovisual del habla, capaz de generar síncronamente voz y animación facial para simular expresiones emocionales

Tipus de document

Article

Versió publicada

Llengua

Castellà

Matèries (CDU)

62 - Enginyeria. Tecnologia

Paraules clau

Reconeixement automàtic de la parla

Percepció del llenguatge

Processament de la parla

Perceptrons

Anàlisi prosòdica (Lingüística)

Pàgines

5 p.

Publicat per

Sociedad Española para el Procesamiento del Lenguaje Natural

Publicat a

Procesamiento del lenguaje natural, No. 29 (2002)

Número de l'acord de la subvenció

info:eu-repo/grantAgreement/SUR del DURSI /FI/2000 FI-00679

Citació recomanada

Aquesta citació s'ha generat automàticament.

Mostra el registre complet de l'element

Aquest element apareix en la col·lecció o col·leccions següent(s)

Articles publicats en revistes [647]

Drets

Excepte que s'indiqui una altra cosa, la llicència de l'ítem es descriu com http://creativecommons.org/licenses/by/4.0/