Rasgos generales de la percepción del habla

Nuestros procesos perceptivos deben ser rápidos y robustos porque el lenguaje hablado, al contrario que el escrito, es de naturaleza efímera y evanescente.

Rapidez

Comparado con cualquier otro código acústico de comunicación, el habla es mucho más rápida que el más veloz de los códigos. La velocidad más rápida a la que es posible identificar por separado unidades discretas de cualquier clase de sonido se sitúa en torno a las 7-9 unidades por segundo. Más allá de esa velocidad los sonidos se «funden» y se empieza a oír algo así como un «zumbido» indiferenciado que, según aumenta el ritmo, se convierte en un tono. Sin embargo, cuando oímos habla, la velocidad a la que se transmiten los sonidos durante la comunicación cotidiana se encuentra entre 20-30 unidades por segundo, sin que exista problema alguno para identificarlos (Lieberman y Blumstein, 1988).

Diferencias en la capacidad de resolución temporal entre el habla y los restantes sonidos en el ser humano. El límite para identificar sonidos individuales es en 7-9 unidades por segundo. Sin embargo, es posible identificar sin problemas los sonidos del habla a razón de 20-30 unidades por segundo y aún más.

Robustez

La percepción del lenguaje oral es un proceso muy eficaz. Nuestra capacidad de identificar los sonidos del habla es asombrosamente robusta. La conversación es posible con tal de que haya tanta energía en la señal hablada como en el ruido enmascarador. No se encuentran dificultades serias hasta que la energía del ruido es unas cuatro veces mayor que la del habla. Otras alteraciones destruyen cualquier vestigio de naturalidad; pero la naturalidad no es importante para la inteligibilidad. Si aumentamos al doble o disminuimos a la mitad la velocidad de emisión, la precisión con que se perciben las palabras tampoco se ve afectada. La resistencia del habla al ruido y a la distorsión es verdaderamente extraordinaria (Miller, 1984, p. 91).

Resistencia del habla a la degradación de la señal. A) Onda intacta. B y C) La misma onda con «recorte» de picos en distintos. Incluso en la forma más degradada (C), se conserva la inteligibilidad de más del 90% de las palabras.

Complejidad

La percepción del habla es un proceso muy complejo y, a la vez, automático. Apenas vislumbramos su extraordinaria complejidad cuando intentamos que las máquinas desempeñen de forma artificial dicho proceso. Aún cuesta imaginar que un ordenador realice lo que nosotros hacemos todos los días sin problemas: seguir una conversación en un contexto de conversaciones paralelas, es decir, discernir el habla de un hablante particular y evitar la «invasión» del sonido de otras personas que hablan al mismo tiempo en la proximidad. Se trata del denominado efecto «coctail-party».

Automática

A pesar de su complejidad, la mayor parte de los subprocesos implicados en la percepción del habla son de naturaleza automática, y los llevamos a cabo sin apenas esfuerzo y sin conciencia de ellos. Si tuviéramos que emplear conscientemente nuestra atención en las operaciones necesarias para percibir los sonidos lingüísticos, no nos quedarían recursos cognitivos disponibles (ni tiempo) para procesar los significados.

Diferente

En algunos aspectos, la percepción del habla difiere de la de los sonidos en general. Ya se ha mencionado que una diferencia importante es que los sonidos del habla (fonemas) pueden identificarse a razón de 20-30 unidades por segundo, frente a las 7-9 unidades de cualquier otra clase de sonidos. Hay otra diferencia importante que señalar: el comportamiento anómalo del habla en lo que se refiere a las tareas de discriminación e identificación (Lieberman y Blumstein, 1988). En cualquier ámbito de la percepción, no sólo en la modalidad auditiva sino también en la visual, nuestra maquinaria cognitiva está construida de tal modo que nos resulta mucho más fácil discriminar entre estímulos que identificarlos. En el habla sucede al revés. La discriminación exige comparar dos estímulos presentados al sistema perceptivo y determinar si son iguales o distintos. La identificación implica la comparación entre un único estímulo y una representación mental que tenemos almacenada en nuestra memoria.

Está demostrado que cualquier persona puede discriminar entre unos 350.000 tonos puros distintos (Stevens y Davis, 1938), pero sólo identifica unos pocos de ellos. Hay sonidos fonéticos, particularmente las consonantes oclusivas, difíciles de discriminar entre sí cuando pertenecen a la misma categoría: por ejemplo, es difícil distinguir entre variaciones distintas de la /p/ o entre variaciones de /b/ o de /k/; nos suenan todas del mismo modo. Todas esas variaciones son físicamente distintas, como revelan los espectrogramas; las mismas variaciones entre tonos puros las percibiríamos inmediatamente, pero en un contexto de habla somos «sordos» a ellas. Por el contrario, somos muy eficientes identificando los sonidos del habla; si no, ¿qué otra cosa hacemos cuando percibimos el lenguaje a razón de 20-30 fonemas por segundo?.

Ausencia de invarianza

La percepción del habla o lenguaje oral puede definirse como un proceso complejo por el cual una señal acústica continua y altamente variable activa representaciones mentales discretas y estables de los fonemas de una lengua. La comprensión de este proceso remite a un problema que aún no hemos sabido resolver: la ausencia de invarianza.

En la percepción del habla, una señal acústica continua y altamente variable activa representaciones mentales estables y discretas en los fonemas de la lengua.

Ya hemos señalado que la percepción del habla es un proceso robusto y, al mismo tiempo, muy flexible y adaptativo, porque el estímulo de entrada es enormemente variable. Además, la variabilidad del habla intrasujeto es prácticamente tan amplia como la variabilidad intersujeto (de ahí la dificultad de las pruebas forenses para identificación de hablantes). Nuestra voz y nuestra forma de pronunciar pueden cambiar asombrosamente de unas situaciones a otras, tanto involuntaria como deliberadamente. A esto se añade el hecho de que la señal es muy dependiente del contexto fonético: el mismo fonema puede tener ondas muy distintas por la influencia de los fonemas precedentes y posteriores, como demuestran los análisis acústicos, aunque no seamos perceptivamente conscientes de ello.

Alta variabilidad de la señal del habla. Todas estas ondas acústicas, y otros cientos más, se peciben como /a/.

En definitiva, podemos oír, por ejemplo, cientos de /a/ distintas, con voces agudas, graves, masculinas, femeninas, infantiles, nasales, impostadas, disártricas, susurradas, con voz disimulada, con ruido de fondo, a velocidades distintas, etc., y somos capaces de, por encima de todas esas variaciones, oír algo común a todas ellas que hace que nos suene como la vocal /a/, y diferenciarla de otros cientos de ondas que nos suenan a /e/, /u/, /p/ o /m/.

En resumen, la percepción del habla es:

  • 10 veces más veloz que cualquier otro código acústico (p. ej., Morse).
  • Robusta: muy resistente al ruido y a la degradación de la señal.
  • Compleja: flexible y adaptativa a la extrema variabilidad de la señal acústica.
  • Automática: sin apenas esfuerzo ni participación de la conciencia.
  • Diferente a la de otros sonidos: mayor resolución temporal, distinta relación entre discriminación e identificación, y otras propiedades que luego se analizarán.

Hemos señalado que la percepción del habla presenta unas características llamativas que la separan de la percepción de otros sonidos. Además de las mencionadas sobre la rapidez y eficiencia en la identificación de los sonidos lingüísticos y la ausencia de invarianza, hay que añadir otra propiedad como la percepción categórica que veremos más adelante.

Referencias

  • Cuetos Vega, González Álvarez, Vega, and Vega, Manuel De. Psicología Del Lenguaje. 2ª Edición. ed. Madrid: Editorial Médica Panamericana, 2020.

Deja un comentario

dos − 1 =

Ir al contenido