Cuando se cede la palabra, cambiamos la voz
La voz pierde calidad, se vuelve más rasposa y se habla más lento cuando concluye la participación en el diálogo y advertimos al otro que es su turno para expresarse. Así lo indican estudios hechos por el investigador Agustín Gravano, del Departamento de Computación de la Facultad, que buscan trasladar estos conocimientos a sistemas informáticos.
Como en un baile, en un diálogo uno da paso al otro para que se exprese y si no hay pisotones o interrupciones, el intercambio fluye compasadamente. Pero cuáles son las señales que indican el turno de uno y luego el del otro. A diario aguardamos el momento para decir nuestro bocadillo en una charla, y resulta tan natural que ni siquiera nos planteamos cómo lo hacemos. Si bien esto ocurre todo el tiempo en los más diversos idiomas en el mundo, desentrañar este minué en danza es clave para diseñar sistemas de computación que imiten mejor la comunicación humana.
“Los humanos somos increíblemente buenos para detectar los intercambios en los diálogos. Sabemos cuando una persona termina de hablar y nos cede la palabra. ¿Cómo hacemos cuando no hay contacto visual, por ejemplo por teléfono, para darnos cuenta que es nuestro turno en la charla? Estudiamos estas transiciones de diálogos y hallamos evidencia de que hay cambios muy sutiles que ocurren en cuestión de milisegundos en la forma de expresarse que advierten al otro que estamos por terminar de hablar”, indica Agustín Gravano, desde el departamento de Computación de la Facultad de Ciencias Exactas y Naturales de la Universidad de Buenos Aires, tras hacer estas investigaciones como parte de su tesis doctoral bajo la dirección de Julia Hirschberg en Columbia University, New York, Estados Unidos.
Si en la forma escrita aparecen puntos, guiones y demás signos para dar cuenta del fin de un párrafo de un interlocutor y del inicio de otro participante en el diálogo, el modo oral también ofrece señales. “La voz pierde calidad, es más rasposa, desciende el tono y la intensidad, es como que se va apagando a medida que se acerca el final del parlamento. El habla es más lenta cuando termina el turno que cuando se halla en el medio de su propio discurso”, describe Gravano, investigador del CONICET, al tiempo que agrega: “En general la parte final de las oraciones se estiran pero cuando se da la palabra al otro, el estiramiento final es más corto. Todo estas variaciones son muy sutiles y ocurren de modo muy veloz, pero de alguna manera se perciben”.
En el Laboratorio de la Universidad de Columbia en New York llevaron adelante el estudio, recientemente publicado en Computer Speech and Language. Diálogos de 45 minutos entre 13 personas, seis mujeres y siete hombres, fueron grabados y analizados. De a pares, conectados por computadoras, jugaban en equipo y necesitaban comunicarse verbalmente para realizar las tareas pues un telón impedía verse entre sí. “La cortina buscó que toda la comunicación fuera auditiva, similar a la que ocurre por teléfono. Los juegos lograron que los participantes se olvidaran que eran objeto de estudio y generaran un diálogo muy rico orientado a realizar una tarea en común”, detalla Gravano.
Más allá de los estudios en sus propios idiomas nativos, los científicos de todo el mundo suelen hacer estos trabajos en inglés, como una lengua común, para poder compartir los resultados a nivel internacional. “El objetivo de los que estamos en esta área es estudiar cómo la computadora puede entender la voz del hombre y responderle”, enfatiza Gravano, y agrega: “A diario empleamos el lenguaje oral casi sin percatarnos de la cantidad y la complejidad de los procesos involucrados en algo tan natural como mantener una conversación. Sin embargo, muchos de esos procesos plantean tremendas dificultades para los sistemas informáticos”.
¿La computadora cede o no la palabra?
Es largo el listado de cuestiones a resolver para alcanzar el viejo sueño de contar con una máquina que hable a imagen y semejanza del hombre. ¿Cuándo la computadora determina que la persona deja de hablar y es su turno para responderle? Lo más habitual es esperar que se produzca un silencio, pero a veces el usuario calla unos segundos para pensar lo que luego continuará hablando. Además, se sabe que esta estrategia de breve mudez no es la más usada en los diálogos entre humanos, según indica el trabajo científico.
Por otra parte, ¿cómo lograr que en el futuro la voz de la computadora no resulte tan extraña, aparatosa, y hasta intimidante? Los problemas son múltiples y más aún cuando se desea lograr un diálogo variado y espontáneo como el humano. “Por el momento, contamos con sistemas acotados. Por ejemplo, se pueden comprar pasajes de avión por teléfono mediante un diálogo con la computadora. Aquí el inventario de palabras es limitado y el dominio de situaciones posibles también”, plantea.
Con numerosas dificultades a sortear como la variedad de idiomas, de dialectos, de entonación, entre otros, Gravano no ceja en su intento de lograr una conversación humano-computadora más natural que la actual. Mientras tanto, uno de sus trabajos a mediano plazo es desarrollar un sistema de lectura de páginas web para usuarios con problemas de visión. “La idea es que sea hablado en un castellano neutro argentino, que resulte familiar a un cordobés, un correntino, e incluso a un uruguayo. La propuesta es que sea gratuito y cualquiera lo pueda bajar de Internet. Este proyecto podría estar listo en unos dos o tres años”, concluye.