Percepción de las vocales

fig5 10 Percepción de las vocales
Triángulo articulatorio de las vocales castellanas, según la posición de la lengua. Adaptado de Quilis (1993).

El lenguaje humano puede definirse como una sucesión de movimientos de apertura y cierre de la boca. Las aperturas corresponderían a las vocales, y los cierres, a las consonantes. En las consonantes se produce un estrechamiento o restricción en la cavidad bucal muy importante, a veces completa, como en las oclusivas. En las vocales, el sonido se produce sin dificultad, con una restricción mucho más suave. Las vocales forman el núcleo de las sílabas, y pueden existir sílabas formadas sólo por una vocal, lo cual no sucede con las consonantes.
De acuerdo con el eje horizontal, las vocales pueden ser anteriores (lengua en posición delantera), como la /i/ y, en menor medida, la /e/; centrales, como la /a/, y posteriores (lengua en posición trasera), como la /o/ y sobre todo la /u/. Según el eje vertical, la lengua puede estar en una posición alta, media o baja. Esta posición determina también el grado de apertura de la boca, siendo /a/ la vocal más abierta, /e/ y /o/ semiabiertas, y las vocales /i/ y /u/, cerradas.

Papel de los formantes

Las distintas posiciones de la lengua y otros órganos móviles (labios, mandíbula, velo del paladar) hacen que cambie la forma general del conducto vocal, variando sus resonancias acústicas o formantes. Es precisamente en los formantes donde reside la clave de la percepción de las vocales.

Las fuentes de evidencia proceden de:

  • La síntesis de vocales artificiales demuestra que cuando se alteran los formantes, el sonido resultante suena a una vocal distinta.
  • El análisis de las vocales naturales mediante espectrogramas permite visualizar y medir los formantes. Los espectrogramas muestran que a vocales distintas les corresponden formantes diferentes, es decir, localizados en distintos niveles de frecuencia.
fig5 11 Percepción de las vocales
Espectrograma de la palabra «Dios» en un rango de frecuencia de 0-6000 Hz. Obsérvese cómo cambian las posiciones de los formantes al pasar de la vocal /i/ a la vocal /o/.

En el espectrograma de la palabra «dios» pronunciada por una mujer, de todos los formantes, los dos primeros (contando desde abajo) son los más importantes. La investigación con estímulos artificiales demuestra que la mayor parte de las vocales pueden ser identificadas sólo con los dos primeros formantes, F1 y F2. De manera que F1 y F2 son esenciales para la inteligibilidad de las vocales. Los siguientes formantes, F3, F4 y F5, cuando se incorporan al estímulo artificial añaden naturalidad, haciendo que el resultado final se parezca más a la voz humana. Cada vocal tiene un patrón característico de F1 y F2.

fig5 12 Percepción de las vocales
Espectrograma de las cinco vocales castellanas ordenadas desde la más anterior /i/, hasta la más posterior /u/. Los dos primeros formantes, F1 y F2 están marcados con líneas claras. Según Quilis y Esgueva (1983), unos valores típicos para un varón adulto podrían ser: /i/ (F1=260 Hz, F2= 2300 Hz); /e/ (450, 1900); /a/ (650, 1200); /o/ (470, 900); /u/ (280, 650). Puede probar a sintetizarlas en: Synthesis of Speech (udel.edu)

Si se examinan los espectrogramas de las cinco vocales castellanas, ordenadas desde la más anterior, /i/, a la más posterior, /u/ se constatan dos principios:

  • F2 es más alto cuanto más anterior es la vocal. Esto se debe a que el espacio que queda delante del estrechamiento causado por la lengua es más corto cuanto más anterior se sitúa la lengua. Dicho espacio es el principal responsable de la segunda resonancia, o F2: cuanto más corto, más alta será la resonancia.
  • F1 es más alto cuanto más abierta es una vocal. La primera resonancia, o F1, depende principalmente de la abertura del tubo vocal. La vocal más abierta, /a/, tiene el F1 más alto de todos. A medida que las vocales son más cerradas, F1 ocupa posiciones más bajas. Así, en las vocales semiabiertas (/e/, /o/), F1 está más bajo que en /a/, y en las vocales cerradas (/i/, /u/), F1 baja todavía más.
  • Por otra parte, el abocinamiento que se produce en la /u/ tiene el efecto de alargar todo el tubo vocal y, por lo tanto, el de bajar ambos formantes.

Variabilidad de los formantes

Dado que los formantes dependen del tamaño y la forma del tracto vocal, existen importantes diferencias individuales a través de los hablantes de distintas edades y sexo. Como ocurre en cualquier resonancia de tubos, las frecuencias de los formantes son inversamente proporcionales a la longitud del tubo, en este caso, del conducto vocal medido desde las cuerdas vocales hasta los labios.

fig5 13 Percepción de las vocales
Distribución de las 10 vocales inglesas en el plano F1xF2 de los primeros formantes. Los hablantes eran varones, mujeres y niños. Tomado de Peterson y Barney (1952)

Un estudio clásico, muy citado, sobre las vocales inglesas es el de Peterson y Barney (1952) llevado a cabo sobre producciones de un total de 76 hablantes: 33 hombres, 28 mujeres y 15 niños. El trabajo fue actualizado con valores más recientes por Hillenbrand, Getty, Clark y Wheeler (1995). Cuando los valores formanticos de cada vocal se representan en un diagrama de dispersión F1 x F2, aparecen nubes o conglomerados de puntos ampliamente extendidos a lo largo de grandes zonas señaladas por óvalos, uno por cada clase de vocal. Cada punto representa una vocal individual pronunciada por un hablante concreto. La gráfica demuestra dos cosas:

  • Alta variabilidad de los formantes: la misma vocal articulada por diferentes hablantes da lugar a una gran variedad de valores forman-ticos; es decir, los puntos que representan a la misma vocal se extienden por una amplia región del plano F1 x F2.
  • Solapamientos entre las áreas vocálicas: Vocales diferentes, dichas por hablantes distintos, coinciden a veces en el plano y tienen los mismos, o muy parecidos, valores para F1 y F2, aunque los oyentes no las confunden entre sí. Probablemente esto no ocurre para el castellano, que cuenta con un sistema vocálico menos abigarrado: 5 vocales frente a las 10-12 del inglés


No obstante, a pesar de la amplia variedad de valores formánticos para una misma vocal o del solapamiento de formantes entre algunas vocales distintas, los oyentes no tienen dificultad en entender el lenguaje y perciben correctamente cada vocal. Parece que cuentan con un mecanismo perceptivo que les permite distinguir entre, por ejemplo, una /e/ dicha por un niño y una /i/ dicha por un adulto, aunque ambas tengan los mismos F1 y F2. Probablemente se apoyan en otras claves acústicas que difieren entre los hablantes, como la frecuencia fundamental y otras, para establecer alguna diferencia de escala.

Normalización de las vocales

Si todos los hablantes fueran del mismo tamaño y tuvieran el mismo tracto vocal, una vez que el oído ha llevado a cabo el análisis y la extracción de los formantes, el cerebro podría relacionar directamente sus frecuencias con una vocal particular. En otras palabras, el cerebro podría consultar una especie de tabla de valores archivada para encontrar qué vocal concreta corresponde a unos formantes determinados. Sin embargo los hablantes son muy distintos entre sí, no sólo por las diferencias de sexo y edad, sino también por las fuertes disparidades individuales en tamaños del tracto vocal, formas, masas, elasticidad de los tejidos y otras propiedades que tienen consecuencias acústicas. Estas diferencias físicas entre hablantes resultan en diferencias considerables en los formantes para una misma vocal. ¿Qué operaciones perceptivo-cognitivas debe efectuar un oyente para interpretar ambos sonidos, muy distintos en sus frecuencias absolutas, como la misma vocal? Una primera explicación fue la teoría de la razón entre formantes, según la cual, la identificación de las vocales no depende de los valores absolutos, de los formantes, sino de la razón o proporción entre ellos. Aunque la proporción entre F2 y F1 podría tener un papel importante en la percepción de las vocales, no es suficiente para explicar todos los casos, se han propuesto otras hipótesis adicionales sobre la normalización vocálica:

  • Los modelos de normalización intrínseca, que consideran que cada vocal porta suficiente información acústica en sí misma para permitir la normalización. Para los partidarios de la normalización intrínseca es importante la proporción F2/F1, pero, además, la vocal contiene información adicional que permite resolver la ambigüedad cuando ésta se produce, en concreto, los formantes superiores (particularmente F3) y la frecuencia fundamental de la voz, o Fo. Johnson (1990) entiende que la frecuencia fundamental es una pista perceptiva importante para identificar al hablante, su edad, su sexo, etc., y así hacer inferencias acerca del tamaño del tracto vocal necesarias para una correcta interpretación de los formantes. La evidencia experimental con estímulos artificiales ha mostrado que la percepción de las vocales se halla influida por los valores que adopta Fo y también por los de F3.
  • Los modelos de normalización extrínseca, que defienden que los oyentes necesitan información externa a la vocal para establecer «un marco de referencia» sobre las características del hablante (edad, sexo, tamaño de su tracto vocal, etc.). Para los partidarios de la normalización externa, los oyentes interpretan los formantes en referencia a un contexto más amplio de habla. Es decir, las vocales individuales se perciben en relación con el inventario completo de vocales de un hablante determinado, y este inventario se extrae de los fragmentos de habla precedentes. Aquí, el trabajo clásico de referencia, también muy citado, se basa en los experimentos de Ladefoged y Broadbent (1957). Estos autores examinaron la identificación de un conjunto de vocales inglesas sintetizadas artificialmente dentro de un contexto silábico /b-vocal-t/. Las vocales se presentaban dentro de una frase que servía de contexto precursor, cuyos valores promedios de Fl y F2 se manipularon experimentalmente. Los resultados mostraron que la identificación de las vocales estaba influida por los cambios formánticos de la frase. Así, cuando se bajó experimentalmente F1 en la frase precursora, la sílaba /bit/ fue percibida más a menudo como /bEt/, es decir, como si, en contraste, el F1 vocálico fuera más alto. A la inversa, al subir el valor de F1 en la frase, la sílaba /baet/ fue en realidad percibida más veces como /bEt/, que tiene un F1 más bajo. Estos cambios en la identificación de la vocal estaban en línea con lo establecido por la hipótesis: el oyente evaluaba los formantes de la vocal en relación con el rango de valores contenidos en la frase precursora. Dependiendo de ello, se oía una vocal u otra, a pesar de que el estímulo físico era el mismo. También Dechovitz (1977) encontró resultados semejantes utilizando frases naturales, en lugar de artificiales, y Nearey (1989) obtuvo datos en la misma línea utilizando listas de palabras.

Percepción continua de las vocales

Al contrario que algunas consonantes las vocales se perciben de forma continua. Cualquier variación en las frecuencias de los formantes es percibida por el oyente, y cambios continuos y graduales de los valores formánticos se perciben también de forma continua. Si sintetizamos un conjunto de vocales artificiales cuyos formantes tengan valores que vayan desde los típicos de una vocal a los de otra, todos los estímulos intermedios se perciben como vocales intermedias entre ambas.

fig5 14 Percepción de las vocales
Percepción continua de las vocales. Cambios continuos y graduales de las frecuencias de los formantes se perciben de forma continua. En el ejemplo se han sintetizado 8 estímulos con valores F1 y F2 comprendidos entre los típicos de una /i/ y los de una /e/. En ese orden se perciben como una /i/ que se va transformando progresivamente en una /e/.

El lector puede hacer la prueba con el sintetizador de voz de tipo Klatt, disponible on line gracias a la Universidad de Delaware en Vowel Synthesis Interface (udel.edu).

Referencias

  • Cuetos Vega, González Álvarez, Vega, and Vega, Manuel De. Psicología Del Lenguaje. 2ª Edición. ed. Madrid: Editorial Médica Panamericana, 2020.

Deja un comentario

dieciseis − 6 =

Ir al contenido