Max Headroom, el personaje de la serie de de los 80, era la versión computarizada de un periodista que tenía un fluido y a la vez extrañamente cibernético diálogo con los humanos.

Reconocimiento de voz

Buen día compu, ¿qué hay de nuevo?

Los seres humanos somos increíblemente buenos para dialogar. Diseñar sistemas informáticos que logren conversaciones similares a las que mantenemos a diario es una meta a la que apuntan desde hace décadas científicos de todo el mundo. Varios investigadores argentinos tienen mucho para decir al respecto.

9 Ago 2013 POR Cecilia Draghi

Max Headroom, el personaje de la serie de de los 80, era la versión computarizada de un periodista que tenía un fluido y a la vez extrañamente cibernético diálogo con los humanos.

Entrevista a Jorge Gurlekian

Descargar archivo MP3 de Jorge Gurlekian

“Te estaba esperando para charlar”. Esta frase habitual entre los humanos quizás algún día la formule, en el mismo sentido, una computadora a una persona, y comience un diálogo, para el cual desde hace décadas trabajan científicos en todos los idiomas del mundo. Ya podemos decirle al celular que llame a alguien, o escuchar el saldo de la cuenta bancaria reproducido por un aparato, pero nunca logramos sacar a la máquina de sus casillas, ni hacerla reír ante un chiste espontáneo que surja entre frase y frase.

“Seguimos en la prehistoria de lo que será el diálogo del hombre con la máquina. Hoy, la computadora dice un poco más que antes, pero no lo hace aún como queremos. No entiende bien y balbucea”, describe el ingeniero electrónico Jorge Gurlekian, director del Laboratorio de Investigaciones Sensoriales (LIS) del Instituto de Neurociencias en el Hospital de Clínicas de la Universidad de Buenos Aires-CONICET, donde diseña sistemas de conversión de texto a habla y de reconocimiento automático de habla, entre otros proyectos.

Conectarnos con máquinas para que digan algo es, desde hace tiempo, normal. Desde 1933, los argentinos tenemos quien nos de la hora oficial con solo marcar el 113. Antes, eran empleados de carne y hueso los que atendían, y luego fueron grabaciones. Hoy, sin movernos de casa podemos pagar servicios por teléfono y, del otro lado de la línea, una computadora repite los números marcados, para confirmar que hicimos lo correcto, y luego, toda una grabación nos va indicando los pasos que tenemos que seguir. También, ya es un clásico la voz cibernética del físico británico Stephen Hawking, quien usa un sistema de síntesis de habla, porque su enfermedad le impide comunicarse por sus propios medios; o que un programa lea en forma clara y audible los mensajes de textos a personas con visión disminuida.

Se trata de tareas simples, con un inventario limitado de palabras, al igual que el dominio de situaciones posibles. Si bien el sonido de la voz computarizada mejora con los avances técnicos, aún resulta muchas veces extraño, aparatoso y hasta intimidante. Crear una máquina que hable con todas las letras, y en el mejor de los sentidos, es un sueño que desvela a los investigadores. Ellos saben que se enfrentan a un gran desafío: los seres humanos somos increíblemente buenos para hablar.

Una señal sonora se representa digitalmente
como una secuencia de variaciones de presión
medidas en un dispositivo de entrada (micrófono).
La imagen de arriba es una visualización de
estas mediciones para una grabación de habla,
lo que se conoce como una forma de onda. A
partir de esta representación se pueden extraer
atributos como el nivel tonal (agudo/grave) y la
intensidad (fuerte/suave) del habla. La imagen
de abajo es un espectrograma, otra visualización
de la misma señal, que muestra la evolución
temporal de las diferentes frecuencias auditivas.
En el espectrograma pueden identificarse los
diferentes sonidos del lenguaje, con patrones
bien definidos para las distintas vocales y
consonantes. Estas visualizaciones son usadas
en todo tipo de estudios del habla.

“A diario, nosotros empleamos el lenguaje oral casi sin percatarnos de la cantidad y la complejidad de los procesos involucrados en algo tan natural como mantener una conversación. Sin embargo, muchos de esos procesos plantean tremendas dificultades para los sistemas informáticos. En consecuencia, tras unos cincuenta años de investigación en estos temas, todavía estamos relativamente lejos de alcanzar el objetivo”, plantea Agustín Gravano, desde el Departamento de Computación de la Facultad de Ciencias Exactas y Naturales de la Universidad de Buenos Aires.

Cuando hablamos, no solo transmitimos información volcada en palabras, sino que también señalamos el modo en que esperamos que sean comprendidas. Por ejemplo, una oración que aparece como afirmativa, si se termina con entonación interrogativa, deja de ser una certeza para convertirse en una duda. Lo mismo ocurre con ciertos efectos buscados para destacar una frase que, aunque oralmente no se vean, contiene los signos de admiración. En otras palabras, no solo importa qué se dice, sino también cómo se lo dice. Si leo “María no renunció por el sueldo que cobraba”, no queda claro si María renunció o no. Solo cómo se lo diga permitirá entender si María dejó el trabajo o no. “Estas oraciones –ejemplifica Gravano– corren serio riesgo de ser malinterpretadas por los sistemas actuales diseñados para procesar casi exclusivamente qué se dice, pero no cómo”.

¿Cómo dice?

“Es intensa la lluvia en la ciudad”. Esta frase no da lugar a mayores ambigüedades, pero si estas pocas palabras son pronunciadas por un cordobés o un porteño, sonarán distintas, y la computadora deberá ser programada para reconocer los matices de tonadas. Para lograrlo, Gurlekian y su equipo, convocaron a dos mil hablantes de diferentes edades, sexos y de distintos rincones del país, que grabaron palabras especialmente escogidas para que pronunciaran con su entonación local y armaron un archivo de voces, que se convirtió en la base de datos universal de la Argentina.

De este modo, el patrón sonoro almacenado permite a los sistemas informáticos reconocer la amplia gama de matices del castellano hablado en la Argentina y convertir el discurso del hablante en texto. “Hay como cinco variantes para decir lluvia en el país. Algunos –ejemplifica Gurlekian– lo dicen con la ll, otros como yuvia. El diccionario fonético de la computadora debe contener las principales versiones registradas, para que cuando llegue el sonido, lo identifique”, explica Gurlekian, investigador del Conicet y director del proyecto. “La palabra carro suena muy distinta dicha por un riojano o un porteño”, compara. Ni qué decir de los correntinos, quienes “tienen diez formas distintas de pronunciar la r”, según revela un estudio reciente.

Este archivo sonoro con las principales tonadas de la Argentina fue realizado en el año 2000 y aún siguen sus ecos. “Muchos de los sistemas de reconocimiento de voz que se emplean actualmente en el país se apoyaron en esta base de datos”, afirma Gurlekian, quien es un experto en hacer “ladrillos básicos” que construyen los avances de la ciencia. De estas estructuras se nutren luego muchas de las aplicaciones que usamos a diario.

En este sentido, Gravano ejemplifica: “Como el negocio de tener programas que reconozcan bien la voz es enorme, empresas como Google, Apple y Microsoft refinan lo sistemas que se investigaron en las distintas universidades del mundo en los años 80, 90 y 2000. Ellos ahora toman la posta”.

Habituados a llevar adelante el conocimiento y ubicarse en las fronteras de la ciencia, muchos de los desafíos que enfrentan a diario los científicos posiblemente no lleven a resultados aplicables de forma inmediata, sino luego de que se combinen con otras posibilidades. En ocasiones, ciertos usos aparecen tímidamente, con críticas feroces, hasta que encuentran en el mundo su lugar, casi se diría, su altar. “Un buen ejemplo es la pantalla táctil. Hace diez años se usaban en los cajeros automáticos, y eran sistemas toscos, casi había que golpear fuerte para que funcionaran. En ese entonces, se preguntaba, para qué se los quería, si ya existía el mouse, el teclado, etcétera. Ahora, que aparecieron las tablets y los celulares pantalla táctil, son muchísimas más las cosas que se pueden hacer. Una vez que está disponible el recurso, aparece gente con nuevas ideas para reaprovecharlo”, remarca Gravano. Hoy, estos dispositivos resultan tan naturales que su hijo de tres años pasa el dedo a una foto de una revista de papel esperando ampliar la imagen.

¿Tu voz es única?

Cada persona es única, pero su voz, ¿también lo es? En principio, el sexo aporta a cada uno un espectro diferente. “El varón ronda los 100 Hz y la mujer, los 200 Hz. La voz femenina es más estridente, y la masculina más opaca”, puntualiza Gurlekian. La cultura también le da sus toques. “Mientras en Occidente a los hombres les gusta la mujer con voz grave como ellos, en Oriente –compara– el tono agudo es considerado más femenino”.

Más allá de las variaciones, ¿cada uno tiene una voz única? “No”, coinciden en señalar Gurlekian junto con Hansjörg Mixdorff, de la Beuth Hochschule de Berlín, de visita de trabajo en el Hospital de Clínicas de Buenos Aires. Allí ambos, con sus equipos, están tras el objetivo de mejorar las técnicas para el reconocimiento automático de habla y del hablante en español y alemán. “Tal vez, algún día se pueda decir que la voz es única como una huella digital, pero por ahora no hay manera de determinarlo”, agregan quienes, justamente, buscan características para reconocer las similitudes y diferencias existentes. “La identificación de voces –ejemplifican– sirve para fines forenses. Es un tema que estaba un poco olvidado por los investigadores y ahora hay un refuerzo para intentar conocer más”.

En este sentido, Mixdorff agrega: “En Alemania no está aceptado en el campo forense una grabación como evidencia. Es que cambia según el canal donde se ha grabado y también con el paso del tiempo”. Los años dejan sus marcas, y esto también intenta descifrar Gurlekian en otro proyecto en marcha. “Volvimos a convocar a las mismas personas que dieron su voz para el archivo realizado con las distintas tonadas en el año 2000. Ahora, lo que buscamos saber es si, tras el paso de doce años, se producen cambios en la voz y cuáles son”, precisa.

Ceder la palabra

El panorama muestra que, para lograr un diálogo espontáneo con la computadora, primero, se requiere conocer cada vez más acerca de cómo nos comunicamos a diario. “Los humanos somos increíblemente buenos para detectar los intercambios en los diálogos. Sabemos cuándo una persona termina de hablar y nos cede la palabra. ¿Cómo hacemos cuando no hay contacto visual, por ejemplo, por teléfono, para darnos cuenta que es nuestro turno en la charla? Estudiamos estas transiciones de diálogos y hallamos evidencia de que hay cambios muy sutiles que ocurren en milisegundos en la forma de expresarse que advierten al otro que estamos por terminar de hablar”, indica Gravano, tras hacer estas investigaciones como parte de su tesis doctoral, bajo la dirección de Julia Hirschberg, en la Universidad de Columbia, en Nueva York, Estados Unidos.

Si en la forma escrita aparecen puntos, guiones y demás signos para dar cuenta del fin de un párrafo de un interlocutor y del inicio de otro participante en el diálogo, el modo oral también ofrece señales. “La voz pierde calidad, es más rasposa, desciende el tono y la intensidad, es como que se va apagando a medida que se acerca el final del parlamento. El habla es más lenta cuando termina el turno que cuando se halla en el medio de su propio discurso”, describe Gravano, luego de estudiar en el laboratorio de Nueva York, diálogos de 45 minutos entre trece personas.

Los científicos necesitan saber estos mecanismos sutiles para programar que la computadora determine cuándo el usuario dejó de hablar, y le toca a ella responder. Ellos saben, por otros estudios realizados, que el silencio en sí mismo no es señal de que la persona ceda la palabra. A veces, simplemente, uno se calla unos segundos para pensar lo que continuará diciendo.

“También –advierte– detectamos que tenemos formas bastantes más concretas de interrumpir de lo que uno hubiera sospechado. No interrumpimos al otro en cualquier lugar, al azar, sino que nos superponemos en determinados fonemas que tienen ciertas propiedades acústicas”.

Los protocolos que se emplean en un diálogo tanto para ceder la palabra o para interrumpir son solo una de las tantas formas de coordinación que usualmente empleamos los seres humanos a la hora de hablar. Pero otra dimensión para desentrañar es la mimetización. Por ejemplo, si el profesor quiere conseguir silencio en el aula, lo mejor es que hable bajo. Cuando nos susurran, tendemos a responderles en el mismo tono.

En el Reino Unido, un experimento buscó entender un poco más acerca de cómo nos comunicamos. Para eso, un actor con buen dominio de la expresión debía hablar individualmente con treinta escoceses. “En la mitad de los casos lo hizo de modo neutro, tendiendo a ser agradable sobre algún tema. En cambio, en la otra mitad, se le pidió que fuera arrogante y se refiriera a Escocia de modo despectivo”, relata. ¿Qué pasó? Al medir la pronunciación, detectaron que los primeros quince entrevistados hablaron de modo bastante neutro, en tanto los segundos, marcaron más su acento escocés.

“Estos últimos estaban tratando de marcar diferencias, no querían tener nada en común con esa persona. Con esto demostraron que la adaptación no se da siempre, ni de modo automático, sino que influyen valores sociales”, revela Gravano. ¿Cómo cambia uno el modo de hablar si quiere agradar a otro o le gusta el interlocutor? “Estamos en un proyecto intentando modelar esto de manera más completa. Esta cuestión es lo que nos está desvelando en los últimos tiempos. Cuanto más se mira, menos claro está cuál es el predictor”, remarca. Lo que sí está claro, es que todos estos elementos que ocurren en los diálogos humanos, hoy, están fuera de los programas de computadoras.

¿Qué tenés en la cabeza?

Las voces resuenan en el mundo externo, pero todo pasa primero en el cerebro. ¿Qué ocurre allí? ¿Cómo medirlo? “Colocamos unos 200 electrodos o más, en la cabeza de una persona, y cada uno de ellos puede responder a determinados estímulos”, relata el doctor Gurlekian, desde su Laboratorio, donde trabaja para mejorar procesos de síntesis de la voz y habla artificial. “Cuando existe una alteración en el sonido, el cerebro dispara un pulso negativo, conocido por su sigla en inglés MMN, que indica el registro de la distorsión. La persona no puede controlar esta pulsación, aun dormida ocurre lo mismo”, describe. Esta prueba le sirve a Gurlekian y su equipo para probar sus creaciones de voz artificial, dado que si el cerebro nota alguna alteración en el sonido, esto queda claramente registrado y no está influido por la opinión circunstancial del consultado.

En Exactas, también se realizan experimentos con electrodos. Cada uno mide un potencial eléctrico y se hacen miles de mediciones por segundo, “Claramente –observa Gravano– reunimos un gran volumen de datos, lo que debemos aprender es a decodificarlos. Si tenemos información de qué ocurre en el cerebro, tal vez podemos predecir cuándo la persona hablará o interrumpirá. Esto puede enriquecer muchísimo los modelos que hoy manejamos”. Mientras tanto, él también colabora con Juan Kamienkowski y Federico Raimondo en un estudio ambicioso. “La idea es manejar la computadora a través del pensamiento. Estamos preparando una demostración para que cualquier persona juegue a subir y bajar una pelota, dando la orden solo con la mente”, anticipa Gravano.

¿Entonces, si la computadora entiende el pensamiento, toda la investigación sobre la comunicación no sería necesaria? “Sonamos”, se ríe. “Todavía el sistema es muy precario –concluye Gravano–. Falta mucho. Soy escéptico sobre el poder leer la mente. Mientras tanto, hay que hacer investigación en otras cosas, porque estamos muy lejos de alcanzarlo por ese camino”.

Una cuestión de bits

Según parece, cuando nos comunicamos, los seres humanos suponemos más de lo que realmente escuchamos. “Cuando hablamos, constantemente hacemos predicciones de lo que el otro va a decir. A punto tal que si uno habla con su pareja o con su tía, predice más del 80% de lo que dirá el otro”, indica Jorge Gurlekian.

Esta capacidad predictiva permite en cierta forma compensar las limitaciones de nuestro oído. “El sistema auditivo –puntualiza– tiene una capacidad de procesar 50 bits de información por segundo. Pero, cuando hablamos generamos como información 5000 bits por segundo. No es que estemos mal hechos, sino que seleccionamos.
No podemos tener atención a todo, se elige en qué enfocar”.

Solo atendemos al 1% de lo que el otro dice. ¿Qué ocurre con el 99% restante? “Lo reconstruimos adentro. Es nuestra memoria de largo plazo, que es la predicción”, explica. En tanto, la computadora, a diferencia de los humanos, puede procesar los 5000 bits.

Programa bajo estudio

“Estamos llegando a la primera versión completa de un sistema de lectura de páginas web para usuarios con problemas de visión”, señala Agustín Gravano, y en seguida anticipa: “La propuesta se subirá gratuita a la Red cuando esté lista. Calculamos que será en un año, o un año y medio”.

Agenda científica

22 abr al 26 abr
Invitación a las V JFAI. invitamos a participar de las V Jornadas de Fundamentos y Aplicaciones de la Interdisciplina (JFAI2024), que se realizarán en la semana del 22 al 26 de abril de 2024 en modalidad presencial -en el centro municipal de arte de Avellaneda, Buenos Aires. Con el lema «El rol de la ciencia en la actual crisis social, ambiental, económica y política», el evento reunirá a investigadores y estudiantes de diversas disciplinas con el propósito de discutir los fundamentos y aplicaciones de la investigación interdisciplinaria. La inscripción a las jornadas permanecerá abierta hasta el comienzo del evento, y se realizará a través del formulario de inscripción. Más info

Por: Cecilia Draghi

Etiquetas: Agustín Gravano, Audio, Jorge Gurlekian, reconocimiento automático del habla, reconocimiento de voz, sistemas de conversión de texto a habla