IA x la Identidad
La Fundación Sadosky y Abuelas de Plaza de Mayo lanzaron un desafío para jóvenes programadores que deben elaborar un software de captura y jerarquización de textos por reconocimiento óptico de caracteres. El objetivo: hacer accesible al público la hemeroteca de la asociación, un material fundamental para la lucha por Memoria, Verdad y Justicia.
Todos los días durante décadas, con prolijidad y esmero, Raquel Radio de Marizcurrena, una de las fundadoras de Madres de Plaza de Mayo y, poco después, de lo que sería Abuelas, seleccionó y recortó de los diarios las noticias que consideraba relevantes para la búsqueda de los nietos robados por el terrorismo de Estado, que se fueron pegando en una veintena de carpetas, una peculiar hemeroteca que reconstruye la historia de esta organización, pilar de los derechos humanos y de la democracia en la Argentina, que hoy continúa su lucha indeclinable por localizar y restituir esos niños a sus familias legítimas.
El hijo y la nuera de Raquel fueron secuestrados en 1976. Ella murió en 2017 sin haber encontrado a su nieto o nieta. Ahora, el fruto de su trabajo es el eje de una iniciativa –que es también un homenaje– impulsada por Abuelas de Plaza de Mayo y la Fundación Sadosky, junto al Ministerio de Ciencia, Tecnología e Innovación: el desafío de aprendizaje automático “IA x la Identidad”.
Dirigido principalmente a estudiantes de programación de las carreras de Computación y Ciencias de Datos, el desafío apunta a desarrollar un software que digitalice y transcriba el archivo periodístico de Abuelas, para hacerlo accesible al público. Se puede participar individualmente o en grupos de hasta tres integrantes.
El desafío es modificar ese programa para que pueda detectar y capturar los distintos elementos, jerarquizarlos y ordenarlos, de modo de incorporarlos a una base de datos accesible.
“Nos pareció una buena iniciativa para difundir la tarea de Abuelas y, al mismo tiempo, resolver un problema concreto de programación. Ese archivo físico ya está escaneado. Ahora necesitamos ver cómo extraer de la manera más adecuada la información de esas imágenes”, explica Fernando Schapachnik, director ejecutivo de la Fundación Sadosky.
Los participantes tendrán a su disposición el Sistema de Transcripción de Documentación Digitalizada, desarrollado y provisto por la Procuración del Tesoro de la Nación, y propuesto como modelo de resolución de problemas en el marco de este desafío. “Ese software se utiliza para hacer OCR (reconocimiento óptico de caracteres) y escaneo masivo de antiguos dictámenes mecanografiados, que tienen una muy baja calidad de impresión. Ahora bien, el layout de esos fallos es relativamente simple: un título y texto corrido –advierte Schapachnik–. Aquí, en cambio, tenemos recortes periodísticos de todo tipo, con distintas diagramaciones de página, y el desafío es modificar ese programa para que pueda detectar y capturar los distintos elementos –volantas, títulos, copetes, destacados, epígrafes, etcétera–, jerarquizarlos y ordenarlos, de modo de incorporarlos a una base de datos accesible”.
Durante todo un mes, los participantes tendrán un encuentro semanal en el que se les brindarán herramientas técnicas y también información sobre la historia de Abuelas y su tarea. Además, entre todos los participantes se trabajará en el etiquetado manual –o semi manual– de datos que serán de utilidad para el desarrollo de los programas. “Esa instancia colaborativa es muy importante. Por eso lo llamamos desafío y no competencia –puntualiza Schapachnik–, con el espíritu que tienen las Abuelas para hacer las cosas, apelando al trabajo colectivo, solidario. En efecto, durante distintas etapas, los participantes tienen que cooperar entre sí”.
Juan Pablo Moyano, uno de los primeros nietos recuperados, comenzó la tarea de digitalizar toda la colección de recortes.
El área de archivo de Abuelas tiene distintos espacios y una gran heterogeneidad, propia de una organización que nació primero reuniendo información que sirviera para buscar a los hijos y los nietos y que después fue generando su propia documentación. Está el archivo biográfico familiar –que reconstruye la historia de vida de las madres y los padres desaparecidos–, el archivo institucional, la biblioteca, y esta hemeroteca de artículos periodísticos. Hace varios años, Juan Pablo Moyano, uno de los primeros nietos recuperados, comenzó la tarea de digitalizar toda la colección de recortes.
“Raquel iba recolectando día a día, diario por diario, todas las noticias sobre Abuelas, sobre las restituciones, los juicios. Tuve con ella una relación de mucho cariño, todavía vivía cuando empecé a escanear. Ya tenemos digitalizados unos 10 mil recortes, en formato TIFF. De algún modo, disponer de una herramienta que le permita a cualquier persona acceder y buscar en este registro termina de darle sentido a todo ese trabajo”, cuenta Juan Pablo, hijo de Edgardo Moyano y Elba Altamirano, militantes de la organización Montoneros secuestrados y desaparecidos, dado irregularmente en adopción y restituido por Abuelas a su familia biológica en 1984, cuando tenía ocho años.
La inscripción, que ya comenzó, (toda la información y el formulario para inscribirse en este link) se extenderá hasta el domingo 26 de marzo. Las reuniones de trabajo se iniciarán el martes 28, una por semana hasta el último martes de abril. La fecha límite para el envío de soluciones es el viernes 28 de abril, y los resultados se conocerán un mes más tarde: el 29 de mayo.
La evaluación de las soluciones de programación presentadas, a cargo de un jurado de expertos, tendrá en cuenta, entre otros aspectos, la exactitud de la tipificación en bloques de los textos, la interpretabilidad del código y el aporte de los participantes al trabajo colaborativo de etiquetado manual para la base de datos.
El ganador del desafío (o bien, cada integrante del equipo ganador) recibirá como premio una notebook con procesador Intel Core i7, 512 SSD y 40 GB de RAM. Quienes queden en segundo y tercer puesto, una computadora de características similares con 16 GB de RAM.
No se trata de un archivo más. Garantizar su accesibilidad es fundamental para seguir trabajando en la construcción de memoria, en la búsqueda de verdad y justicia, con el objetivo central de encontrar a los nietos que faltan, esos hombres y esas mujeres a los que todavía se les niega el derecho a la identidad.