D E M O C R A T O P I A

Percepción del habla

RESUMEN V.1

INTRODUCCIÓN

Abordar el estudio del lenguaje oral desde el punto de vista material, de su realización física o acústica, es referirse al habla; por lo que en este capítulo emplearemos los términos lenguaje o habla humana de forma indistinta. Lo primero que no hay que olvidar es que el habla es sonido.
El sonido se produce cuando un cuerpo vibra y comunica la vibración a las moléculas del entorno (aire, agua) y esta energía es recibida por el oído. En el vacío no puede oírse el sonido porque faltan las moléculas que transportan la energía vibratoria.

Las piezas básicas del sonido son las ondas puras o simples, que no pueden descomponerse en ninguna otra. Una onda comprende una sucesión de ciclos o patrones de vibración que se repiten en el tiempo, y cada ciclo está formado por un pico que sube y un valle que baja en torno a un punto central de energía cero.

Onda pura o simple. Se han marcado un ciclo y la amplitud entre un pico y un valle. La línea central corresponde a energía cero.

Las ondas que nacen de movimientos vibratorios rápidos, tienen una frecuencia alta, con muchos ciclos por segundo (o hercios) y se perciben como agudas. Las ondas que nacen de movimientos vibratorios lentos, tienen una frecuencia baja, con pocos ciclos por segundo y se perciben como graves. En los seres humanos, las voces masculinas son más graves porque las cuerdas vocales de los varones son más largas que las de las mujeres. Otra dimensión importante es la intensidad o amplitud del desplazamiento de la onda, entre el pico y el valle. Desde el punto de vista perceptivo, su unidad es el decibelio (dB), que es una medida relativa y no lineal que abarca desde 0 dB, o umbral de la audición, hasta más de 140 dB, que es el umbral del dolor al sonido. Una conversación normal se sitúa entre 40 y 60 dB.

La suma de varias ondas simples da lugar a una onda compleja. En realidad, lo que existe en la naturaleza son ondas complejas, pues las simples sólo se consiguen por medios electrónicos o con dispositivos especiales como el diapasón para afinar instrumentos musicales.

Hay dos clases de ondas complejas:

  • Periódicas. Tienen ciclos o patrones complejos de vibración que se repiten de forma periódica.
    • Perceptivamente oímos un sonido dotado de un tono o tonalidad; es el caso de las notas musicales, de un silbido, de una sirena o de las vocales y consonantes sonoras.
    • En el lenguaje corresponden a los sonidos sonoros producidos por la vibración de las cuerdas vocales (vocales, y consonantes sonoras como /b/, /d/, /g/, /m/, /n/, /r/, /l/, etc.).
  • Aperiódicas. No se pueden apreciar ciclos repetitivos.
    • Perceptivamente se perciben como ruidos, sin tono, como ocurre con los sonidos causados por un soplo, un golpe, una fricción, una explosión o las consonantes sordas.
    • En el lenguaje corresponden a los ruidos o sonidos sordos producidos por el paso del aire a través de un sitio estrecho, o una pequeña explosión generada por la brusca liberación de una obstrucción (/s/, /f/, /?/, /p/, /t/, /k/, etc.).
A) Onda acústica de la frase «Los médicos salen a la calle». B) Fragmento ampliado de la onda aperiódica correspondiente a la consonante /s/ de «médicos»; en ella no se aprecian ciclos periódicos y se percibe como un ruido. C) Fragmento de onda periódica de la vocal /e/ de «salen»; en ella se aprecian claramente los ciclos periódicos.

Espectrogramas

Una onda acústica contiene mucha información que no es posible observar directamente mediante la mera inspección de su forma. Sabemos que una onda compleja se compone de muchas otras simples, cada una con una frecuencia y una intensidad particulares, por lo que el sonido posee distintos grados de energía en unas frecuencias u otras. ¿No hay alguna forma de visualizar la distribución de esta energía a través de las frecuencias? Esto se consigue gracias a los espectrogramas obtenidos mediante un espectrógrafo.

Dos ejemplos de espectrogramas. A) Espectrograma creado por un espectrógrafo. El principio básico es el mismo que el de un prisma que descompone la luz en sus colores integrantes. El sonido pasa a través de un banco de filtros, cada uno especializado en una frecuencia determinada. Cuando los filtros se activan, queman el papel encerado y lo tiznan de negro mientras que va girando por un rodillo en la dirección que indica la flecha. Las partes oscuras corresponden a las zonas de mayor energía. B) Onda (arriba) y espectrograma (abajo) de la frase «¿Quieres más café?» pronunciada por una mujer. Obsérvense los formantes (F1, F2, F3, F4, F5), las estrías correspondientes a los movimientos de apertura y cierre de las cuerdas vocales y la oclusión de la consonante c (/k/) de «café». En las consonantes sordas (/s/,/f/) no se aprecian estrías.

Así es como se obtuvieron los primeros espectrogramas, en los que aparecían representadas las tres dimensiones básicas del sonido: el tiempo, en el eje horizontal, las diferentes frecuencias en el eje vertical, y la amplitud en la mayor o menor intensidad del dibujo.

El espectrógrafo de sonido se reveló especialmente útil para el análisis del habla humana, y la espectrografía acústica ha sido la técnica reina en su estudio. Hoy los espectrogramas se obtienen en los ordenadores a través de software especializado, alguno libre en Internet como el célebre Praat (Praat: doing Phonetics by Computer (uva.nl)).

Para hacernos una idea de la importancia que tienen los formantes en la percepción del lenguaje, hay que señalar que podemos entender frases completas basándonos únicamente en dos o tres ondas puras, si éstas siguen la trayectorias de los formantes, como demostraron Robert Remez y cols.,(1981). En la figura A se muestra el espectrograma de la frase «El avión vuela sobre las nubes altas», y en la figura B, el de un estímulo acústico formado por dos ondas simples que siguen las trayectorias del primero y del segundo formantes (F1 y F2). Con un mínimo entrenamiento, cualquier persona puede entender la frase completa escuchando el estímulo artificial.

Importancia de los formantes en la percepción del lenguaje. A) Espectrograma de la frase «El avión vuela sobre las nubes altas» dicha por un varón. B) Réplica acústica formada únicamente por dos ondas puras que siguen las trayectorias del primero (F1) y del segundo (F2) formante de la frase. Escuchando este estímulo artificial se puede percibir la frase completa. Ejemplo tomado de González y Cervera (2000).

Síntesis del habla

Mediante el espectrógrafo se pasa de la onda al espectrograma; se analiza el sonido en sus partes. ¿No sería posible el camino inverso? Es decir, a partir de un espectrograma reconstruir artificialmente la onda completa para ser escuchada. En este caso estaríamos hablando de síntesis, o pasar de las partes al todo; justamente lo contrario del análisis, que es pasar del todo a las partes.

Con el desarrollo de la electrónica han surgido sistemas de síntesis de voz mucho más perfectos que el reproductor de patrones de los laboratorios Haskins. En los años ochenta hizo su aparición un sintetizador desarrollado por Dennis Klatt en el Instituto Tecnológico de Massachusetts que generaba una voz artificial muy parecida a la natural, basándose en un modelo matemático del tracto vocal humano. Constituye el núcleo de uno de los conversores texto-voz más conocidos, el DECtalk, un sistema de habla artificial particularmente útil para las personas imposibilitadas de hablar, como es el caso del físico y matemático de Cambridge, Stephen Hawking, afectado de esclerosis lateral amiotrófica.

RASGOS GENERALES DE LA PERCEPCIÓN DEL HABLA

Nuestros procesos perceptivos deben ser rápidos y robustos porque el lenguaje hablado, al contrario que el escrito, es de naturaleza efímera y evanescente.

Rapidez

Comparado con cualquier otro código acústico de comunicación, el habla es mucho más rápida que el más veloz de los códigos. La velocidad más rápida a la que es posible identificar por separado unidades discretas de cualquier clase de sonido se sitúa en torno a las 7-9 unidades por segundo. Más allá de esa velocidad los sonidos se «funden» y se empieza a oír algo así como un «zumbido» indiferenciado que, según aumenta el ritmo, se convierte en un tono. Sin embargo, cuando oímos habla, la velocidad a la que se transmiten los sonidos durante la comunicación cotidiana se encuentra entre 20-30 unidades por segundo, sin que exista problema alguno para identificarlos (Lieberman y Blumstein, 1988).

Diferencias en la capacidad de resolución temporal entre el habla y los restantes sonidos en el ser humano. El límite para identificar sonidos individuales es en 7-9 unidades por segundo. Sin embargo, es posible identificar sin problemas los sonidos del habla a razón de 20-30 unidades por segundo y aún más.

Robustez

La percepción del lenguaje oral es un proceso muy eficaz. Nuestra capacidad de identificar los sonidos del habla es asombrosamente robusta. La conversación es posible con tal de que haya tanta energía en la señal hablada como en el ruido enmascarador. No se encuentran dificultades serias hasta que la energía del ruido es unas cuatro veces mayor que la del habla. Otras alteraciones destruyen cualquier vestigio de naturalidad; pero la naturalidad no es importante para la inteligibilidad. Si aumentamos al doble o disminuimos a la mitad la velocidad de emisión, la precisión con que se perciben las palabras tampoco se ve afectada. La resistencia del habla al ruido y a la distorsión es verdaderamente extraordinaria (Miller, 1984, p. 91).

Resistencia del habla a la degradación de la señal. A) Onda intacta. B y C) La misma onda con «recorte» de picos en distintos. Incluso en la forma más degradada (C), se conserva la inteligibilidad de más del 90% de las palabras.

Complejidad

La percepción del habla es un proceso muy complejo y, a la vez, automático. Apenas vislumbramos su extraordinaria complejidad cuando intentamos que las máquinas desempeñen de forma artificial dicho proceso. Aún cuesta imaginar que un ordenador realice lo que nosotros hacemos todos los días sin problemas: seguir una conversación en un contexto de conversaciones paralelas, es decir, discernir el habla de un hablante particular y evitar la «invasión» del sonido de otras personas que hablan al mismo tiempo en la proximidad. Se trata del denominado efecto «coctail-party».

Automática

A pesar de su complejidad, la mayor parte de los subprocesos implicados en la percepción del habla son de naturaleza automática, y los llevamos a cabo sin apenas esfuerzo y sin conciencia de ellos. Si tuviéramos que emplear conscientemente nuestra atención en las operaciones necesarias para percibir los sonidos lingüísticos, no nos quedarían recursos cognitivos disponibles (ni tiempo) para procesar los significados.

Diferente

En algunos aspectos, la percepción del habla difiere de la de los sonidos en general. Ya se ha mencionado que una diferencia importante es que los sonidos del habla (fonemas) pueden identificarse a razón de 20-30 unidades por segundo, frente a las 7-9 unidades de cualquier otra clase de sonidos. Hay otra diferencia importante que señalar: el comportamiento anómalo del habla en lo que se refiere a las tareas de discriminación e identificación (Lieberman y Blumstein, 1988). En cualquier ámbito de la percepción, no sólo en la modalidad auditiva sino también en la visual, nuestra maquinaria cognitiva está construida de tal modo que nos resulta mucho más fácil discriminar entre estímulos que identificarlos. En el habla sucede al revés. La discriminación exige comparar dos estímulos presentados al sistema perceptivo y determinar si son iguales o distintos. La identificación implica la comparación entre un único estímulo y una representación mental que tenemos almacenada en nuestra memoria.

Está demostrado que cualquier persona puede discriminar entre unos 350.000 tonos puros distintos (Stevens y Davis, 1938), pero sólo identifica unos pocos de ellos. Hay sonidos fonéticos, particularmente las consonantes oclusivas, difíciles de discriminar entre sí cuando pertenecen a la misma categoría: por ejemplo, es difícil distinguir entre variaciones distintas de la /p/ o entre variaciones de /b/ o de /k/; nos suenan todas del mismo modo. Todas esas variaciones son físicamente distintas, como revelan los espectrogramas; las mismas variaciones entre tonos puros las percibiríamos inmediatamente, pero en un contexto de habla somos «sordos» a ellas. Por el contrario, somos muy eficientes identificando los sonidos del habla; si no, ¿qué otra cosa hacemos cuando percibimos el lenguaje a razón de 20-30 fonemas por segundo?.

Ausencia de invarianza

En la percepción del habla, una señal acústica continua y altamente variable activa representaciones mentales estables y discretas en los fonemas de la lengua.

La percepción del habla o lenguaje oral puede definirse como un proceso complejo por el cual una señal acústica continua y altamente variable activa representaciones mentales discretas y estables de los fonemas de una lengua. La comprensión de este proceso remite a un problema que aún no hemos sabido resolver: la ausencia de invarianza.

Ya hemos señalado que la percepción del habla es un proceso robusto y, al mismo tiempo, muy flexible y adaptativo, porque el estímulo de entrada es enormemente variable. Además, la variabilidad del habla intrasujeto es prácticamente tan amplia como la variabilidad intersujeto (de ahí la dificultad de las pruebas forenses para identificación de hablantes). Nuestra voz y nuestra forma de pronunciar pueden cambiar asombrosamente de unas situaciones a otras, tanto involuntaria como deliberadamente. A esto se añade el hecho de que la señal es muy dependiente del contexto fonético: el mismo fonema puede tener ondas muy distintas por la influencia de los fonemas precedentes y posteriores, como demuestran los análisis acústicos, aunque no seamos perceptivamente conscientes de ello.

Alta variabilidad de la señal del habla. Todas estas ondas acústicas, y otros cientos más, se perciben como /a/.

En definitiva, podemos oír, por ejemplo, cientos de /a/ distintas, con voces agudas, graves, masculinas, femeninas, infantiles, nasales, impostadas, disártricas, susurradas, con voz disimulada, con ruido de fondo, a velocidades distintas, etc., y somos capaces de, por encima de todas esas variaciones, oír algo común a todas ellas que hace que nos suene como la vocal /a/, y diferenciarla de otros cientos de ondas que nos suenan a /e/, /u/, /p/ o /m/.

En resumen, la percepción del habla es:

  • 10 veces más veloz que cualquier otro código acústico (p. ej., Morse).
  • Robusta: muy resistente al ruido y a la degradación de la señal.
  • Compleja: flexible y adaptativa a la extrema variabilidad de la señal acústica.
  • Automática: sin apenas esfuerzo ni participación de la conciencia.
  • Diferente a la de otros sonidos: mayor resolución temporal, distinta relación entre discriminación e identificación, y otras propiedades que luego se analizarán.

Hemos señalado que la percepción del habla presenta unas características llamativas que la separan de la percepción de otros sonidos. Además de las mencionadas sobre la rapidez y eficiencia en la identificación de los sonidos lingüísticos y la ausencia de invarianza, hay que añadir otra propiedad como la percepción categórica que veremos más adelante.

Percepción de las vocales

Triángulo articulatorio de las vocales castellanas, según la posición de la lengua. Adaptado de Quilis (1993).

El lenguaje humano puede definirse como una sucesión de movimientos de apertura y cierre de la boca. Las aperturas corresponderían a las vocales, y los cierres, a las consonantes. En las consonantes se produce un estrechamiento o restricción en la cavidad bucal muy importante, a veces completa, como en las oclusivas. En las vocales, el sonido se produce sin dificultad, con una restricción mucho más suave. Las vocales forman el núcleo de las sílabas, y pueden existir sílabas formadas sólo por una vocal, lo cual no sucede con las consonantes.
De acuerdo con el eje horizontal, las vocales pueden ser anteriores (lengua en posición delantera), como la /i/ y, en menor medida, la /e/; centrales, como la /a/, y posteriores (lengua en posición trasera), como la /o/ y sobre todo la /u/. Según el eje vertical, la lengua puede estar en una posición alta, media o baja. Esta posición determina también el grado de apertura de la boca, siendo /a/ la vocal más abierta, /e/ y /o/ semiabiertas, y las vocales /i/ y /u/, cerradas.

Papel de los formantes

Las distintas posiciones de la lengua y otros órganos móviles (labios, mandíbula, velo del paladar) hacen que cambie la forma general del conducto vocal, variando sus resonancias acústicas o formantes. Es precisamente en los formantes donde reside la clave de la percepción de las vocales.

Las fuentes de evidencia proceden de:

  • La síntesis de vocales artificiales demuestra que cuando se alteran los formantes, el sonido resultante suena a una vocal distinta.
  • El análisis de las vocales naturales mediante espectrogramas permite visualizar y medir los formantes. Los espectrogramas muestran que a vocales distintas les corresponden formantes diferentes, es decir, localizados en distintos niveles de frecuencia.
Espectrograma de la palabra «Dios» en un rango de frecuencia de 0-6000 Hz. Obsérvese cómo cambian las posiciones de los formantes al pasar de la vocal /i/ a la vocal /o/.

En el espectrograma de la palabra «dios» pronunciada por una mujer, de todos los formantes, los dos primeros (contando desde abajo) son los más importantes. La investigación con estímulos artificiales demuestra que la mayor parte de las vocales pueden ser identificadas sólo con los dos primeros formantes, F1 y F2. De manera que F1 y F2 son esenciales para la inteligibilidad de las vocales. Los siguientes formantes, F3, F4 y F5, cuando se incorporan al estímulo artificial añaden naturalidad, haciendo que el resultado final se parezca más a la voz humana. Cada vocal tiene un patrón característico de F1 y F2.

Espectrograma de las cinco vocales castellanas ordenadas desde la más anterior /i/, hasta la más posterior /u/. Los dos primeros formantes, F1 y F2 están marcados con líneas claras. Según Quilis y Esgueva (1983), unos valores típicos para un varón adulto podrían ser: /i/ (F1=260 Hz, F2= 2300 Hz); /e/ (450, 1900); /a/ (650, 1200); /o/ (470, 900); /u/ (280, 650). Puede probar a sintetizarlas en: Synthesis of Speech (udel.edu)

Si se examinan los espectrogramas de las cinco vocales castellanas, ordenadas desde la más anterior, /i/, a la más posterior, /u/ se constatan dos principios:

  • F2 es más alto cuanto más anterior es la vocal. Esto se debe a que el espacio que queda delante del estrechamiento causado por la lengua es más corto cuanto más anterior se sitúa la lengua. Dicho espacio es el principal responsable de la segunda resonancia, o F2: cuanto más corto, más alta será la resonancia.
  • F1 es más alto cuanto más abierta es una vocal. La primera resonancia, o F1, depende principalmente de la abertura del tubo vocal. La vocal más abierta, /a/, tiene el F1 más alto de todos. A medida que las vocales son más cerradas, F1 ocupa posiciones más bajas. Así, en las vocales semiabiertas (/e/, /o/), F1 está más bajo que en /a/, y en las vocales cerradas (/i/, /u/), F1 baja todavía más.
  • Por otra parte, el abocinamiento que se produce en la /u/ tiene el efecto de alargar todo el tubo vocal y, por lo tanto, el de bajar ambos formantes.
Variabilidad de los formantes

Dado que los formantes dependen del tamaño y la forma del tracto vocal, existen importantes diferencias individuales a través de los hablantes de distintas edades y sexo. Como ocurre en cualquier resonancia de tubos, las frecuencias de los formantes son inversamente proporcionales a la longitud del tubo, en este caso, del conducto vocal medido desde las cuerdas vocales hasta los labios.

Distribución de las 10 vocales inglesas en el plano F1xF2 de los primeros formantes. Los hablantes eran varones, mujeres y niños. Tomado de Peterson y Barney (1952)

Un estudio clásico, muy citado, sobre las vocales inglesas es el de Peterson y Barney (1952) llevado a cabo sobre producciones de un total de 76 hablantes: 33 hombres, 28 mujeres y 15 niños. El trabajo fue actualizado con valores más recientes por Hillenbrand, Getty, Clark y Wheeler (1995). Cuando los valores formanticos de cada vocal se representan en un diagrama de dispersión F1 x F2, aparecen nubes o conglomerados de puntos ampliamente extendidos a lo largo de grandes zonas señaladas por óvalos, uno por cada clase de vocal. Cada punto representa una vocal individual pronunciada por un hablante concreto. La gráfica demuestra dos cosas:

  • Alta variabilidad de los formantes: la misma vocal articulada por diferentes hablantes da lugar a una gran variedad de valores forman-ticos; es decir, los puntos que representan a la misma vocal se extienden por una amplia región del plano F1 x F2.
  • Solapamientos entre las áreas vocálicas: Vocales diferentes, dichas por hablantes distintos, coinciden a veces en el plano y tienen los mismos, o muy parecidos, valores para F1 y F2, aunque los oyentes no las confunden entre sí. Probablemente esto no ocurre para el castellano, que cuenta con un sistema vocálico menos abigarrado: 5 vocales frente a las 10-12 del inglés


No obstante, a pesar de la amplia variedad de valores formánticos para una misma vocal o del solapamiento de formantes entre algunas vocales distintas, los oyentes no tienen dificultad en entender el lenguaje y perciben correctamente cada vocal. Parece que cuentan con un mecanismo perceptivo que les permite distinguir entre, por ejemplo, una /e/ dicha por un niño y una /i/ dicha por un adulto, aunque ambas tengan los mismos F1 y F2. Probablemente se apoyan en otras claves acústicas que difieren entre los hablantes, como la frecuencia fundamental y otras, para establecer alguna diferencia de escala.

Normalización de las vocales

Si todos los hablantes fueran del mismo tamaño y tuvieran el mismo tracto vocal, una vez que el oído ha llevado a cabo el análisis y la extracción de los formantes, el cerebro podría relacionar directamente sus frecuencias con una vocal particular. En otras palabras, el cerebro podría consultar una especie de tabla de valores archivada para encontrar qué vocal concreta corresponde a unos formantes determinados. Sin embargo los hablantes son muy distintos entre sí, no sólo por las diferencias de sexo y edad, sino también por las fuertes disparidades individuales en tamaños del tracto vocal, formas, masas, elasticidad de los tejidos y otras propiedades que tienen consecuencias acústicas. Estas diferencias físicas entre hablantes resultan en diferencias considerables en los formantes para una misma vocal. ¿Qué operaciones perceptivo-cognitivas debe efectuar un oyente para interpretar ambos sonidos, muy distintos en sus frecuencias absolutas, como la misma vocal? Una primera explicación fue la teoría de la razón entre formantes, según la cual, la identificación de las vocales no depende de los valores absolutos, de los formantes, sino de la razón o proporción entre ellos. Aunque la proporción entre F2 y F1 podría tener un papel importante en la percepción de las vocales, no es suficiente para explicar todos los casos, se han propuesto otras hipótesis adicionales sobre la normalización vocálica:

  • Los modelos de normalización intrínseca, que consideran que cada vocal porta suficiente información acústica en sí misma para permitir la normalización. Para los partidarios de la normalización intrínseca es importante la proporción F2/F1, pero, además, la vocal contiene información adicional que permite resolver la ambigüedad cuando ésta se produce, en concreto, los formantes superiores (particularmente F3) y la frecuencia fundamental de la voz, o F0. Johnson (1990) entiende que la frecuencia fundamental es una pista perceptiva importante para identificar al hablante, su edad, su sexo, etc., y así hacer inferencias acerca del tamaño del tracto vocal necesarias para una correcta interpretación de los formantes. La evidencia experimental con estímulos artificiales ha mostrado que la percepción de las vocales se halla influida por los valores que adopta F0 y también por los de F3.
  • Los modelos de normalización extrínseca, que defienden que los oyentes necesitan información externa a la vocal para establecer «un marco de referencia» sobre las características del hablante (edad, sexo, tamaño de su tracto vocal, etc.). Para los partidarios de la normalización externa, los oyentes interpretan los formantes en referencia a un contexto más amplio de habla. Es decir, las vocales individuales se perciben en relación con el inventario completo de vocales de un hablante determinado, y este inventario se extrae de los fragmentos de habla precedentes. Aquí, el trabajo clásico de referencia, también muy citado, se basa en los experimentos de Ladefoged y Broadbent (1957). Estos autores examinaron la identificación de un conjunto de vocales inglesas sintetizadas artificialmente dentro de un contexto silábico /b-vocal-t/. Las vocales se presentaban dentro de una frase que servía de contexto precursor, cuyos valores promedios de F1 y F2 se manipularon experimentalmente. Los resultados mostraron que la identificación de las vocales estaba influida por los cambios formánticos de la frase. Así, cuando se bajó experimentalmente F1 en la frase precursora, la sílaba /bit/ fue percibida más a menudo como /bEt/, es decir, como si, en contraste, el F1 vocálico fuera más alto. A la inversa, al subir el valor de F1 en la frase, la sílaba /baet/ fue en realidad percibida más veces como /bEt/, que tiene un F1 más bajo. Estos cambios en la identificación de la vocal estaban en línea con lo establecido por la hipótesis: el oyente evaluaba los formantes de la vocal en relación con el rango de valores contenidos en la frase precursora. Dependiendo de ello, se oía una vocal u otra, a pesar de que el estímulo físico era el mismo. También Dechovitz (1977) encontró resultados semejantes utilizando frases naturales, en lugar de artificiales, y Nearey (1989) obtuvo datos en la misma línea utilizando listas de palabras.
Percepción continua de las vocales

Al contrario que algunas consonantes las vocales se perciben de forma continua. Cualquier variación en las frecuencias de los formantes es percibida por el oyente, y cambios continuos y graduales de los valores formánticos se perciben también de forma continua. Si sintetizamos un conjunto de vocales artificiales cuyos formantes tengan valores que vayan desde los típicos de una vocal a los de otra, todos los estímulos intermedios se perciben como vocales intermedias entre ambas.

Percepción continua de las vocales. Cambios continuos y graduales de las frecuencias de los formantes se perciben de forma continua. En el ejemplo se han sintetizado 8 estímulos con valores F1 y F2 comprendidos entre los típicos de una /i/ y los de una /e/. En ese orden se perciben como una /i/ que se va transformando progresivamente en una /e/.

El lector puede hacer la prueba con el sintetizador de voz de tipo Klatt, disponible on line gracias a la Universidad de Delaware en Vowel Synthesis Interface (udel.edu).

Percepción de las consonantes

Las consonantes son producidas por movimientos o gestos articulatorios rápidos que se imponen sobre los más lentos de las vocales. No es posible pronunciar algunas consonantes de forma aislada, sin la ayuda de una vocal: /p/, /t/, /k/, /b/, /d/, /g/. Algunos autores consideran que las sílabas son, en esencia, vocales alteradas por delante o detrás por consonantes; es como si las consonantes fueran los «márgenes» de las vocales. La percepción de las consonantes es esencial para entender el lenguaje y obedece a procesos más complejos que las vocales.

Transiciones formánticas

Existen múltiples pistas perceptivas en la señal del habla para la identificación de los sonidos consonanticos, por ejemplo, la composición del ruido en las fricativas como la /s/ o la /f/, los formantes propios de algunas consonantes como /m/, /n/, /l/, etc. Por encima de todas las pistas, destaca una por ser la más importante: las transiciones de los formantes vocálicos. Cuando pronunciamos una vocal de modo aislado (p. ej., /a/), sus formantes presentan una apariencia estable, más o menos plana en dirección horizontal. Si la pronunciamos precedida o seguida de una consonante (p. ej., /pa/), la trayectoria formántica se ve alterada hacia arriba o hacia abajo, por influencia de esa consonante. Esto ocurre en la transición consonante-vocal, si es una sílaba directa, o vocal-consonante, si es una sílaba inversa. Estas rápidas inclinaciones formánticas causadas por la presencia de una consonante se conocen como transiciones de los formantes y constituyen una pista clave para su identificación. Esto es especialmente evidente en las consonantes oclusivas.

Espectrograma de /apa/. Transiciones de los formantes vocálicos por influencia de las consonantes. Compárese el espectrograma del /a/ con el de /pa/. En este último, la porción inicial de los formantes es «empujada» hacia abajo por la influencia de /p/ (flecha).
Las transiciones formánticas son clave para percibir las consonantes.

Las transiciones de F1 y F2 son cruciales para percibir las consonantes, sobre todo las de F2. Nuestro sistema perceptivo se vale de ellas para identificar con gran rapidez los distintos sonidos consonanticos que van apareciendo en el habla fluida. En unos casos las transiciones son hacia arriba, más o menos pronunciadas, y en otros, son hacia abajo, dependiendo de cada consonante y, muy importante, también de la vocal. No hay una relación simple del tipo: todas las /d/ darán lugar a una transición hacia arriba, todas las /k/ causarán transiciones hacia abajo. La relación es mucho más compleja, pero nuestro sistema perceptivo se encuentra cómodo en esa complejidad porque no se equivoca.

Versiones estilizadas de los dos primeros formantes. Ejemplo de ausencia de invarianza acústica. En las dos silabas (/di/, /du/), el primer sonido suena /d/ a pesar de que las transiciones formánticas son distintas.


El gran problema teórico sobre la percepción del habla es la ausencia de invarianza acústica. Es decir, la ausencia de algo constante en la representación espectrográfica que corresponda a una consonante particular. Es un problema que causó perplejidad en los estudios pioneros y ha traído de cabeza a los investigadores durante varias décadas, porque no hay que olvidar que ese «algo constante» sí lo encuentra nuestro sistema perceptivo (si no, no oiríamos la misma consonante). De la diversidad de explicaciones propuestas se han derivado diferentes teorías sobre la percepción del lenguaje.

Percepción categórica

Las vocales se perciben de modo continuo: cambios graduales y continuos de las frecuencias de los formantes se perciben de forma continua. Por el contrario, las consonantes, especialmente las oclusivas (/p/, /t/, /k/, /b/, /d/, /g/), se perciben de forma categórica. Los cambios continuos y graduales de los sonidos consonánticos no son percibidos de modo continuo, sino de forma discreta o por categorías.

El estudio seminal de Liberman, Harris, Harris et al. (1957) fue el primero que lo puso de manifiesto. Sintetizaron una serie de 14 estímulos formados por representaciones esquemáticas de F1 y F2 para ser escuchados por el Pattern Playback.

Percepción categórica de las consonantes. Los estímulos 1 a 4 se oyen como /be/; los estímulos de 5 a 9 se oyen como /de/, y los estímulos de 10 a 14 se oyen como /ge/. Dentro de cada grupo no se perciben diferencias. Tomado de Liberman, Harris et al. (1957).

Los experimentos que estudian la percepción categórica utilizan dos tipos de tareas, cuyos resultados se comparan entre ellas: tareas de discriminación y tareas de identificación:

  • En las tareas de discriminación los estímulos se comparan entre sí. Hay varios paradigmas experimentales posibles.
    • Paradigma AX. Se presenta un estímulo y a continuación otro, que puede ser el mismo estímulo repetido u otro distinto; la tarea del oyente consiste en responder «igual» o «diferente».
    • Paradigma ABX. Se presentan dos estímulos sucesivos que siempre son distintos (y así se indica en las instrucciones); a continuación se presenta un tercer estímulo que siempre es uno de los dos anteriores: el oyente debe decidir cuál de los dos es este tercer estímulo. Las tareas pueden resultar más fácil o difícil manipulando ciertas variables, entre ellas el tiempo que media entre los estímulos.
  • En la tarea de identificación se presenta un único estímulo en cada ensayo y el oyente debe identificarlo indicando la etiqueta o nombre del estímulo; en este caso, de qué consonante se trata.

En ambos tipos de prueba los estímulos se presentan en ensayos aleatorios, para evitar cualquier efecto de orden. La discriminación guarda relación con la identificación: hay una discontinuidad en los resultados: error dentro de la misma categoría, y desempeño casi perfecto entre categorías distintas.

¿Por qué los sonidos del habla, en concreto las consonantes oclusivas, se perciben de forma discontinua o categórica, al contrario que otros muchos sonidos, que son percibidos de modo continuo (p. ej., tonos)? Los autores defensores de un mecanismo especial para la percepción del lenguaje han visto en ello una constatación de su existencia. Lo cierto es que la percepción categórica se ha hecho evidente no sólo respecto a las transiciones de F2, sino también en relación con otras dimensiones acústicas relevantes para la distinción entre consonantes, por ejemplo el contraste sordo-sonoro.

Contraste sordo-sonoro

El parámetro «estrella» en la investigación psicolingüística sobre percepción del lenguaje es, sin duda, el conocido como voice onset time o VOT. De su valor depende que percibamos una oclusiva sorda o una sonora. Para entender cómo afecta el VOT a la percepción, hay que revisar antes la mecánica articulatoria de las consonantes oclusivas. Cuando pronunciamos una de ellas, por ejemplo en posición inicial de sílaba, hay una secuencia de los siguientes movimientos articulatorios:

  • Movimiento 1: oclusión o interrupción completa, durante varias decenas de mili-segundos, de la salida de aire de la boca y, por lo tanto, de la energía acústica. La oclusión se realiza con los labios en las consonantes labiales /b/ y /p/, con la lengua contra los dientes en las dentales castellanas /t/ y /d/ o con la parte posterior de la lengua contra el velo del paladar en las velares /g/ y /k/.
  • Movimiento 2: liberación del aire. Los órganos fonadores se separan bruscamente liberando el aire a presión y dando lugar a una pequeña explosión.
  • Movimiento 3: comienzo de vibración de las cuerdas vocales para el inicio de la vocal que sigue a la oclusiva.

Existe una sincronización temporal muy fina, de milisegundos, entre estos tres movimientos a pesar de que pertenecen a grupos musculares y nervios craneales distintos. Esta perfecta coordinación, cuyo mecanismo responsable probablemente se ubica en el área de Broca de la corteza cerebral, puede verse alterada en ciertos trastornos del habla.

El VOT es la distancia temporal entre los movimientos 2 y 3. Es decir, los milisegundos que transcurren desde la liberación brusca del aire hasta el inicio de la vibración de las cuerdas vocales. En inglés la frontera de las labiales se sitúa en torno a 25-30 ms: la consonante sorda (/p/) tiene un VOT superior a ese límite, y la sonora (/b/) inferior. En castellano, el límite se sitúa en torno a un VOT de 0 ms.

Uno de los trabajos más citados sobre la percepción del VOT es el estudio pionero de Abramson y Lisker (1967), los resultados mostraron que la percepción era claramente categórica.

Respuesta en una tarea de identificación (consonante B frente a P) de estímulos artificiales de habla, cuyo VOT varía entre -150 a +150 ms, en incrementos de 10. Las respuestas presentan una distribución claramente categórica, con una estrecha zona de incertidumbre en torno al límite de VOT de +25 -30 ms. Datos basados en Abramson y Lisker (1967).

Trabajos más recientes indican que los oyentes sí pueden percibir diferencias entre los estímulos de una misma categoría fonética y que ésta cuenta en su interior con una rica estructura interna organizada en torno a representaciones prototípicas (Miller, 1994). Parece que la percepción categórica confiere al oyente la ventaja de centrarse en los aspectos de la señal que son importantes para identificar los fonemas e ignorar variaciones no esenciales dentro de la categoría fonética, lo que descargaría de trabajo al sistema perceptivo y permitiría concentrar casi todos los recursos cognitivos en lo que verdaderamente importa en el lenguaje: la extracción del significado.

PERCEPCIÓN DEL HABLA EN ANIMALES NO HUMANOS

En 1971 apareció en Science el paradigmático trabajo de Peter Eimas y su equipo de la Universidad de Brown, en el que se demostraba que la percepción categórica de algunos fonemas era innata en el ser humano y se manifestaba desde los primeros meses de vida. El descubrimiento de que los recién nacidos perciben los sonidos del habla de forma categórica, como lo hacen los adultos, supuso un fuerte apoyo a la tesis de los «especialistas», que abogan por un mecanismo perceptivo específico para el lenguaje, frente a los «generalistas», defensores del mecanismo general de la percepción auditiva. Sin embargo, la evidencia empírica se ha ido repartiendo a favor de ambas posiciones teóricas y la euforia de los especialistas no duro mucho.

En 1975 Patricia Kuhl y James Miller demostraron que la percepción categórica también ocurre en sujetos tan poco sospechosos de tener lenguaje humano como las chinchillas. Estos autores pusieron a prueba cómo percibían estos animalitos sílabas formadas por una oclusiva dental (/t/ o /d/) y la vocal /a/. El experimento consistió en dos fases:

Fase de entrenamiento. Las chinchillas fueron divididas en dos grupos y se utilizaron sólo los dos estímulos extremos de la serie.
Fase de prueba. Ahora los animales eran enfrentados a toda la serie completa de estímulos. Los dos estímulos extremos fueron castigados o recompensados como antes, pero los intermedios fueron siempre recompensados.

Este diseño mimetizaba bien los experimentos típicos de identificación con seres humanos, en los que habría dos respuestas posibles (sonidos /t/ y /d/) y los estímulos presentarían toda la gama de posibilidades intermedias. También la chinchilla tenía dos respuestas para acoger: cruzar la barrera o permanecer en el mismo lado. Lo sorprendente del experimento fue que las respuestas de las chinchillas fueron muy semejantes a las humanas ante los mismos estímulos.

En 1989 y con los mismos estímulos, Dooling, Okanoya y Brown obtuvieron resultados parecidos en periquitos. Con otros estímulos lingüísticos se han hallado asimismo paralelismos entre las respuestas humanas y las de otros animales como codornices japonesas o monos macacos. Se asestaba así un duro golpe a la percepción categórica como manifestación o prueba de un mecanismo especial humano. Los resultados procedentes de los animales no humanos no invalidan per se la posible existencia de un mecanismo especial en las personas, pero restan peso al argumento que había sido su buque insignia: la percepción categórica.

TEORÍAS SOBRE LA PERCEPCIÓN DEL HABLA

La forma en que los oyentes consiguen pasar de una señal acústica continua y extremadamente variable a representaciones estables y discretas como los fonemas es algo que ha recibido explicaciones distintas desde diversas posiciones teóricas.

Teoría motora

Versiones estilizadas de los dos primeros formantes. Ejemplo de ausencia de invarianza acústica. En las dos silabas (/di/, /du/), el primer sonido suena /d/ a pesar de que las transiciones formánticas son distintas.

Propuesta por Alvin Liberman, Franklin Cooper y Pierre Delattre en la década de 1950, en un intento de explicar la ausencia de invarianza acústica del habla. Aunque /di/ y /du/ son estímulos sin energía acústica común, los dos comparten el hecho de que se han pronunciado del mismo modo; es decir, los movimientos y las órdenes motoras emanadas del cerebro han sido los mismos básicamente: por unos breves instantes, la lengua obstruye firmemente el paso del aire presionando contra los dientes superiores y lo libera retirándose bruscamente en busca de una nueva posición para producir la vocal siguiente (/i/ en un caso, /u/ en el otro).De este modo, según la teoría motora, el verdadero objeto de la percepción no es la señal acústica en sí, sino los movimientos articulatorios y las órdenes motoras que el cerebro envía a los órganos articuladores para producir el habla (Liberman, 1985).

Algunas de las evidencias a favor de la teoría motora se sitúan en la innegable relación que existe entre los procesos de producción y percepción del lenguaje. Otra evidencia a favor de la unión entre la producción y la percepción es el conocido efecto McGurk. Más recientemente, los estudios con imágenes por resonancia magnética funcional sugieren que el cerebro activa zonas motoras del habla mientras percibe el lenguaje (D’Ausilio et al., 2011; Wilson et al., 2004).

Teoría realista directa

En la década de 1980 se planteó una alternativa a la teoría motora, referida como la teoría realista directa. Esta teoría, desarrollada por Carol Fowler, plantea igualmente que el objeto de la percepción es de tipo articulatorio o motor, pero no supone que el oyente deba tener acceso a su sistema de producción para reconstruir los gestos fonéticos (Fowler, 1996). Asimismo, niega la existencia de un módulo especializado en decodificar el lenguaje.

Su base es la perspectiva ecológica de la teoría de la percepción directa desarrollada por el psicólogo James Gibson. Al contrario que las restantes teorías de la percepción, que presuponen una secuencia de estadios de procesamiento a partir del estímulo de entrada, Gibson considera que la propia estructura del estímulo ya incorpora toda la información necesaria para percibir los objetos y eventos del entorno. Los animales percibimos de forma directa todos los elementos del medio ecológico que son relevantes para nuestra supervivencia. La percepción es un proceso «directo», sin necesidad de pasos intermedios, y no el fruto de una «construcción» o elaboración como propugnan las demás teorías. Fowler entiende que la percepción del lenguaje puede caracterizarse en los mismos términos que, por ejemplo, la percepción visual de las superficies de objetos. Así, la señal acústica es un estímulo proximal que proporciona información sobre los estímulos distales, o gestos artículadores que la han producido. Cuando un oyente escucha el lenguaje capta de forma directa los movimientos articulatorios que lo han producido, pero no gracias a un mecanismo especial para el lenguaje, sino del mismo modo en que percibe el origen de otros sonidos de su entorno.

La principal crítica que ha recibido la teoría realista directa se dirige contra la hipótesis de que los objetos propios de la percepción del lenguaje sean los gestos articulatorios. Por otra parte, muchos autores contraponen ejemplos en los que existe percepción sin conocimiento directo de las causas distales; así, alguien puede escuchar música, percibir la melodía de, por ejemplo, un violín, sin conocer dicho instrumento, su estructura o material del que está hecho.

Teoría auditiva general

Como hemos visto, varios hallazgos pusieron en cuestión la teoría motora de la percepción del habla y la existencia de un mecanismo específico. Los principales hallazgos se han mencionado anteriormente; nos referimos a la evidencia de percepción categórica por parte de animales no humanos (Kuhl y Miller, 1975, 1978), así como a ciertos estímulos de no-habla Pisoni, 1977). Estos y otros autores mantienen que los mecanismos perceptivos generales de la audición son los responsables de la percepción del lenguaje. Para esta teoría, la percepción de la constancia o invarianza no requiere la recuperación de gestos articuladores o el concurso de ningún módulo especial. En apoyo de esta posición teórica, Kluender, Diehl y Killeen (1987) demostraron que los pájaros (sujetos no lingüísticos) también eran capaces de percibir la invarianza o constancia fonética de, por ejemplo, /di/ y /du/.

En contraste con la teoría motora, no se presupone la existencia de mecanismos específicos o de un módulo decodificador especial. Se asume como hipótesis de trabajo que los sonidos del lenguaje se perciben y dependen del sistema general de audición y de los principios del aprendizaje perceptivo; los mismos que han evolucionado en los seres humanos para manejar otras clases de sonidos del entorno.

Una derivación de la teoría general es la hipótesis de la potenciación auditiva, según la cual, los sistemas de sonidos de las distintas lenguas se han adaptado para convertirse en robustas señales que explotan las características generales del sistema auditivo. De esta manera, las lenguas desarrollan un inventario de fonemas que optimiza la distintividad fonética entre ellos, de acuerdo con las capacidades auditivas generales.

EFECTO DEL CONTEXTO EN LA PERCEPCIÓN DEL LENGUAJE

El fin último de la percepción del lenguaje oral es extraer significados del sonido pero en esta operación hay en realidad dos fuentes de información que fluyen al mismo tiempo. Una, la más evidente, es la información acústica del estímulo que alimenta al sistema perceptivo-cognitivo de abajo-arriba. La otra información fluye en sentido contrario y procede de las representaciones de naturaleza sintáctica, semántica y pragmática, que tienen que ver con la construcción sobre la marcha del significado de lo que escuchamos. Este es el conocido efecto del contexto y corresponde a procesos de arriba-abajo.

Restauración fonémica

Procesamiento abajo-arriba (botton-up) y procesamiento arriba-abajo (top-down), dentro de la arquitectura general del sistema perceptivo-cognitivo.

La demostración más contundente del efecto del contexto sobre la percepción del lenguaje es el conocido fenómeno de la restauración fonémica (Warren, 1970). Warren hizo escuchar frases completas en las que se había sustituido un segmento fonético, por ejemplo el fonema /s/ de la palabra «legislatura», por un sonido no lingüístico de intensidad semejante, como un golpe de tos o un zumbido. Cuando se les preguntó a los sujetos después de escuchar las frases, éstos afirmaron que habían percibido todas las palabras intactas, y muchos ni siquiera habían sido conscientes de la presencia del ruido intruso. Este efecto se mantenía incluso al repetir la grabación y una vez que los oyentes eran informados de las condiciones experimentales. Es decir, la información cognitiva procedente de procesos superiores (información de arriba-abajo) era capaz de suplir la información física ausente en la señal de habla y restaurar el fonema que faltaba. Este efecto no ocurría cuando se trataba de estímulos que no eran palabras (p. ej., «teliscura»). Además, cuando detectaban el ruido intruso, los participantes no podían ubicar correctamente el lugar de la frase en que había sido insertado. Por el contrario, si el fonema era reemplazado por un silencio en lugar del ruido, entonces no se producía la restauración fonémica y el silencio era detectado fácilmente. Parece como si el proceso de restauración fonémica necesitara algún «material de entrada» (ruido) sobre el que apoyarse para «reconstruir» perceptivamente el fonema ausente, y no funcionara desde la nada estimular (silencio). ¿Se trata de un efecto genuinamente perceptivo o es posperceptivo? Los datos parecen indicar que la influencia de las palabras en la percepción de los fonemas es perceptiva, mientras que la influencia de la frase es principalmente de tipo posperceptivo.

En el lenguaje escrito también se ha constatado una restauración grafémica, Jordán, Thomas y Scott-Brown (1999) observaron el fenómeno de las «letras ilusorias» en el que los participantes perciben letras donde éstas no existen. Se trata de la influencia ejercida por información procedente de los niveles superiores de procesamiento, o procesos arriba-abajo.

Los datos indican que los oyentes pueden seguir las frases con latencias muy cortas, del orden de 250 ms, equivalente a la duración de una sílaba. Esto quiere decir que, en los vocablos polisilábicos, son capaces de reconocer una palabra incluso antes de que sea presentada completamente. Según muchos autores, ésta es una de las evidencias más convincentes sobre el efecto de la información de tipo arriba-abajo en la percepción del lenguaje.

Efectos arriba-abajo de alto nivel

Los procesos de alto nivel ejercen su acción desde representaciones superiores a la palabra y tienen lugar no sólo en el lenguaje oral, sino también en el escrito. Así, la palabra «pincel» se identifica más rápidamente si aparece en un texto sobre pintura, que si la leemos de forma aislada, o en un texto sobre, pongamos por caso, los juegos olímpicos. Por el mismo motivo, leemos mejor y más deprisa un texto con estructura y significado coherente, que un conjunto desordenado de palabras o sílabas.

En el texto 1 (recuadro 5.7) , la representación del significado que vamos construyendo al leer suministra información (de arriba-abajo) que nos permite anticipar sobre la marcha hipótesis acerca de las palabras que nos vamos a encontrar. La naturaleza del estímulo (un discurso/texto organizado, con significado coherente) permite que aprovechemos información de arriba-abajo y necesitemos, en consecuencia, menos información estimular de abajo-arriba. En cambio, en el texto 2, en el cual todo el procesamiento debe descansar de modo exclusivo en la información del estímulo (abajo-arriba) y éste debe ser analizado exhaustivamente. Cuando lo leemos, lo hacemos sin construir ningún significado.

Los primeros estudios pusieron de manifiesto la importancia del contexto en la percepción del lenguaje. Si de una narración grabada se cortan algunos fragmentos extrayendo palabras que se presentan de forma aislada y desordenada, sólo el 50% de las palabras aisladas se reconocen correctamente, mientras que en el contexto de la frase se identificaban prácticamente en su totalidad (Pollack y Pickett, 1963).

AUTOEVALUACIÓN

REFERENCIAS

  • Cuetos Vega, González Álvarez, Vega, and Vega, Manuel De. Psicología Del Lenguaje. 2ª Edición. ed. Madrid: Editorial Médica Panamericana, 2020.
  • YouTube

Deja un comentario

tres − uno =

Ir al contenido