Inteligencia artificial y lenguaje

La geografía del idioma

Los avances en las metodologías de procesamiento de lenguaje natural y el uso masivo de redes sociales, donde millones de usuarios se expresan y evidencian modos particulares de su lengua, han permitido una actualización eficaz de la obra que registra cómo hablamos el español en Argentina. Un grupo de investigadores desarrollaron métricas específicas para recuperar las particularidades del habla en las distintas regiones del país.

28 Feb 2020 POR Lis Tous

Imagen: Exactas UBA.

Cómo se dispersan las palabras en nuestro extenso territorio; qué derivaciones del idioma de los argentinos evidencia la confluencia de varias lenguas en el Río de la Plata, en Cuyo o en la Patagonia; qué reminiscencias esconden las fronteras del Estado Nación, o cómo es que el ok boomer podría llegar a buscarse en la sala de referencias de la Biblioteca Nacional. La dinámica de las lenguas hace de los diccionarios obras imprescindibles de consulta. ¿Puede la inteligencia artificial ayudar a que la actualización sea más rápida, eficaz e incluso menos intuitiva?

¿Por qué los diccionarios de este tipo siempre serán obras de consulta indispensable? Resultan útiles, principalmente, para la investigación en historia, literatura o en estudios de la industria cultural ya que permiten encontrar expresiones del pasado que han dejado de emplearse de manera corriente y, por ejemplo, conocer el léxico utilizado en literatura en diferentes siglos; también, rastrear con precisión la evolución de las voces y su tratamiento en obras de referencia a través del tiempo. En particular, la dialectología busca conocer variedades lingüísticas asociadas -entre otros factores- a la distribución geográfica de los hablantes, a su historia en relación al territorio, a procesos particulares como la inmigración e incluso a la desaparición y el exterminio.

Cuando un hispanohablante escucha en un documental de Netflix que a un juez le hicieron un “carpetazo”, si no es argentino probablemente no comprenderá qué quiere decir el entrevistado cuando pronuncia esa palabra. Los lingüistas abocados al estudio del habla, en cambio, dirán: ¡Eureka! El hecho de que un término nuevo circule en las conversaciones, aparezca impreso en el diario, se repita en la radio y en la televisión indican que su uso ya es frecuente. Así es como la definición de carpetazo se ganó un lugar en el Diccionario del Habla de los Argentinos en su última edición: “difusión de información comprometedora sobre una persona, en particular un funcionario público o un militante político y a partir de datos provenientes de una carpeta”.

Santiago Kalinowski. Foto: ANCCOM. Tomás Borgo.

Santiago Kalinowski es el director del Departamento de Investigaciones Lingüísticas y Filológicas de la Academia Argentina de Letras, la institución que elabora el diccionario de la lengua nacional, una obra lexicográfica diferencial que recoge, define y documenta el uso particular del español en la Argentina y sus variedades geográficas. “Reunir la totalidad del repertorio del léxico de una comunidad lingüística en un volumen es muy difícil, siempre los diccionarios están incompletos”, dice.

Son muchas las diferencias entre quienes hablamos español en Argentina, lo mismo sucede entre los hablantes de la ciudad de Tucumán y la ciudad de Mendoza, o entre Buenos Aires y Bogotá. También resulta variado el universo de factores que inciden en la evolución de la lengua de cada región. Según Kalinowski, las distinciones dialectales son un resultado natural, inherente, porque una lengua está siempre en contacto con otras, tiene influjos inmigratorios, atiende particulares fenómenos políticos, económicos o militares. Es decir, cada lengua lleva una dinámica en un sistema de condiciones que nunca se repite.

Inteligencia aplicada a detectar la diferencias

En la década del sesenta, Berta Elena Vidal de Battini, del Instituto de Filología de la Facultad de Filosofía y Letras de la UBA, publicó El Español de la Argentina, una primera descripción dialectológica profunda destinada a la enseñanza escolar de la lengua. Ya en esa oportunidad, Vidal de Battini expresaba las dificultades metodológicas para recopilar regionalismos en un país con tanta extensión territorial como la Argentina. En la actualidad, los medios de comunicación y las redes sociales permiten generar actualizaciones más fácilmente, aunque Santiago Kalinowski reconoce: “teníamos una debilidad en el método para detectar las palabras que debían ingresar al diccionario, nos faltaba una herramienta que pudiera recoger términos de un corpus representativo”. Además, todas las personas involucradas en la confección del diccionario pertenecen a la misma región dialéctica, la llamada Pampa-Patagonia.

Agustìn Gravano. Foto: Archivo Exactas UBA.

De este modo trabajaron los lingüistas hasta ahora, prestando atención a los discursos a su alrededor -con bastante intuición y un poco de suerte- lograban reconocer
formas particulares de representar el mundo de los hablantes. Por otro lado, debían obtener la cita textual, una fuente probatoria del uso. Todo cambió cuando Kalinowski decidió comunicarse con Agustín Gravano, profesor el Departamento de Computación (DC) de la Facultad de Ciencias Exactas y Naturales de la UBA. “Le propuse que estableciéramos una colaboración, cuenta Kalinowski, donde ellos aportaron la parte de procesamiento de lenguaje natural y nosotros el enfoque, las nociones de tipo lingüístico, las preguntas a las que el corpus debía dar respuestas. Así hicimos una primera experiencia enfocada en el énfasis del contraste léxico”.

“Después de barajar varias posibilidades, elegimos trabajar con Twitter porque brinda algunas ventajas. Una no menor es que permite extraer datos de manera gratuita”, dice Juan Manuel Pérez, investigador del DC y autor del trabajo. Por su parte, Gravano, que dirige el grupo de investigación, explica que la herramienta construida en la facultad actúa como una red de pesca: “las cientos de palabras que atrapamos con el nuevo método resultan candidatos a ser analizados de manera manual por los lingüistas. También les brindamos acceso al corpus en sí para que pudieran leer cada palabra en contexto y, de este modo, consultar ejemplos o referencias de uso, revalidar la entrada al diccionario y descartar aquellas originadas por spam”.

Según los investigadores, la métrica desarrollada superó a otras técnicas basadas únicamente en frecuencia de palabras, ya que permite medir la cantidad de usuarios que producen una palabra y así descubrir nuevos términos del español argentino pero, también, para identificar diferentes significados asignados a palabras ya registradas. Por ejemplo, en el diccionario general aprontar tiene dos acepciones: “prevenir, disponer con prontitud”; y: “entregar sin dilación dinero u otra cosa”. En cambio, en Entre Ríos, la palabra se usa en expresiones como “voy a aprontar el mate”, “tenés que aprontrar el bolso”, “no apronté nada para el colegio aún”. Es decir, en ese lugar de la Argentina, aprontar es sinónimo de preparar. ¿Cómo pudieron identificarla? Apareció en la lista de resultados con una importancia notable: 33 veces entre un millón de palabras.

Juan Manuel Pérez. Foto: Exactas UBA.

Para recopilar los datos de Twitter Argentina se tomaron en cuenta las divisiones políticas y administrativas del territorio en departamentos y provincias, luego la búsqueda se realizó a través de la API (Application Programming Interface) para usuarios cuya ubicación coincidiera a con esas clasificaciones territoriales. Con cada uno de los usuarios identificados se recuperó la totalidad de tweetlines y, a su vez, con cada tuit se separaron palabras del texto en entidades llamadas tokens. También se eliminaron hashtags y menciones a los usuarios, las palabras restantes fueron descartadas; y vocales consecutivas idénticas se normalizaron hasta tres repeticiones («woaaa» en lugar de «woaaaaaa»).

“Con un lapso de diez años se puede saber si han surgido nuevas palabras y cuáles han mantenido su uso observando los textos de unos 35 mil usuarios y tomando la métrica en general. La naturaleza de Twitter es ruidosa pero este problema se aplaca con el volumen de datos distribuidos en esa temporalidad”, explica Pérez. “Finalmente, los lingüistas han utilizado en el diccionario una de cada siete palabras rescatadas”, confirma Gravano.

Una vez obtenidos los resultados -unos 130 mil términos- el análisis requiere de la sensibilidad lexicográfica. El ruido es intrínseco a la naturaleza de Twitter donde, según Kalinowski, los típicos recursos utilizados en la red social tales como el tono de voz tipográfico o el énfasis contribuyen a la falta de claridad. Si bien la muestra obtenida mediante inteligencia artificial no es la única fuente para el diccionario, porque muchas veces no es útil sólo detectar las palabras sino identificar diferencias semánticas, la incorporación de la herramienta significó “un salto sideral” en la metodología de trabajo.