Tesis > Documento


Ver el documento (formato PDF)   Assaneo, María Florencia.  "Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla"  (2014-09-09)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
URL:
     
Resumen:
Desde el punto de vista biológico el proceso del habla puede separarse en dos etapas moduladas entre sí: la producción y la percepción. En este trabajo nos ocupamos de ambas, concentrándonos especialmente en la primera. El sistema vocal humano está formado por dos grandes bloques: las cuerdas vocales y el tracto vocal. Las cuerdas vocales constituyen la fuente acústica, determinando la entonación del discurso, mientras que el contenido fonético (los sonidos propios de la lengua) es definido por la dinámica del tracto vocal. En esta tesis presentamos un modelo completo de producción vocal, incluyendo el estudio dinámico de un modelo detallado de cuerdas vocales y su adaptación a un modelo de baja dimensión del tracto vocal. Para evaluar la calidad de la voz sintetizada con el modelo, utilizamos una combinación de test perceptuales y de resonancia magnética funcional, cuyos resultados muestran que la voz sintética es indistinguible de segmentos de voz real. Los sintetizadores basados en la física de la producción de voz permiten además el estudio de la percepción de voz controlando parámetros biológicos. En particular, en este trabajo mostramos que la identidad de la voz está codificada en términos de las dimensiones relativas entre las cuerdas vocales y el tracto vocal. Usamos este modelo de voz verificado experimentalmente para responder preguntas de la biolingüística y la biomimética. En primer lugar, investigamos el rol de la física del aparato vocal en la formación de las onomatopeyas. A pesar de considerarse palabras vinculadas directamente con la imitación, es difícil establecer qué se preserva acústicamente entre los sonidos y sus onomatopeyas. Utilizamos el modelo vocal para mostrar que las configuraciones del tracto vocal que producen los sonidos más parecidos a los originales corresponden a consonantes co-articuladas. Estos pares vocal-consonante se corresponden, además, con las sílabas más estables de las onomatopeyas en distintos idiomas, sugiriendo un mecanismo por el cual la imitación vocal permite asociar sonidos simples a estructuras de habla más complejas. Por otra parte, nos preguntamos cuál es la dimensionalidad del espacio motor que gobierna la producción de habla. Para abordar este problema diseñamos un dispositivo experimental que permite monitorear tres puntos de la cavidad oral durante el discurso. Con esta herramienta, logramos una descripción discreta para las coordenadas motoras de las vocales y consonantes oclusivas del español, mostrando además la viabilidad de controlar el modelo de producción vocal con variables anatómicas para la síntesis de voz en tiempo real a partir de los gestos anatómicos producidos durante el habla.

Abstract:
From a biological point of view the ability of speaking can be split in two intermodulated processes: production and perception. In this work we investigated both of them from a physical perspective, focusing on the first one. The physical process associated with the production of voice rely on the vocal anatomy, composed of two main blocks: the vocal folds and the vocal tract. The folds are the acoustic source that specify the intonation of the speech, while the phonetic content is determined by the vocal tract dynamics. In this thesis we developed a complete model of voice production, we studied the different dynamic regimes of a detailed mathematical model of the folds, and adjusted it to a low dimensional model of the tract. This model allows to synthesize voice by controlling physical parameters of the vocal system. In order to evaluate the quality of the synthetic voices, we carried out a combination of perceptual and fMRI tests, showing that synthetic voices are indistinguishable from real ones. Such an articulatory synthesizer, based on the physics processes involved in the voice production, allows to study the perceptual effects of precise variations in the anatomical parameters. We used it to show that the voice identity is encoded in the relative dimensions of the tract and the folds. Using this validated model, we addressed two specific questions. First, we investigated the role of imitation within the generation of onomatopoeias. Despite it is widely know that onomatopoeias are based on imitation, it remains unclear which are the acoustic features shared between the sounds and their onomatopoeias. Using our vocal model we show that co-articulated consonants are the sounds that best fit the original noises. This pairs of vowel-consonant also are the more stable syllables within the onomatopoeias across languages, suggesting a mechanism through which vocal imitation associates simple sounds with more complex speech structures. We also inquire about the dimension of the vocal motor space controlling the production of speech, in order to study this problem we designed an experimental device that allows monitoring 3 points of the upper vocal tract while speaking. Making use of this novel tool, we reach a discrete description for the motor coordinates of Spanish vowels and occlusive consonants. This results show the plausibility to control the vocal model with direct anatomical measures, synthesizing speech in real time from simple motor gestures produced during the vocalization.

* A este resumen le pueden faltar caracteres especiales. Consulte la versión completa en el documento en formato PDF

Registro:
Título : Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla     =    Modeling of the human vocal system and its application to studies of speech perception and production
Autor : Assaneo, María Florencia
Director : Trevisan, Marcos Alberto
Consejero : Mindlin, Gabriel
Jurados : Balenzuela, Pablo  ; Fernández Slezak, Diego  ; Fraiman, Daniel
Año : 2014-09-09
Editor : Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Filiación : Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
Departamento de Física. Laboratorio de Sistemas Dinámicos
Instituto de Física de Buenos Aires (IFIBA)
Grado obtenido : Doctor de la Universidad de Buenos Aires en el área de Ciencias Físicas
Ubicación : Preservación - http://digital.bl.fcen.uba.ar/gsdl-282/cgi-bin/library.cgi?a=d&c=tesis&d=Tesis_5601_Assaneo
Idioma : Español
Area Temática : Física / Biofísica
Física / Dinámica
Palabras claves : PRODUCCION Y PERCEPCION DE VOZ; BIOLINGÜISTICA; MODELADO MATEMATICO; DINAMICA NOLINEAL; RESONANCIA MAGNETICA FUNCIONAL; SPEECH PERCEPTION AND PRODUCTION; BIOLINGUISTICS; MATHEMATICAL MODELLING; NONLINEAR DYNAMICS; FMRI
URL al Documento : 
URL al Registro : 
hola chau _gs.DocumentHeader_ chau2 _documentheader_ chau3
Estadísticas:
     http://digital.bl.fcen.uba.ar
Biblioteca Central Dr. Luis Federico Leloir - Facultad de Ciencias Exactas y Naturales - Universidad de Buenos Aires
Intendente Güiraldes 2160 - Ciudad Universitaria - Pabellón II - C1428EGA - Tel. (54 11) 4789-9293 int 34