Especialista en data mining

Bibliotecas digitales y libros reales

Ian Witten, profesor de Ciencias de la Computación en la Universidad de Waicato, Nueva Zelanda, habló de sus tres proyectos principales: el software Greenstone para desarrollar bibliotecas digitales, los “libros reales” y la “wikificación”, que significa enriquecer un documento mediante links a otros artículos de la Wikipedia.

17 Nov 2011 POR

Ian Witten. Foto: Juan Pablo Vittori

Como parte del Workshop organizado por la Maestría en Explotación de Datos y Descubrimiento del Conocimiento que se dicta en el Departamento de Computación de Exactas, Ian Witten dictó un taller sobre técnicas de data-mining relacionadas con el software libre Weka (desarrollado por él), y ofreció la conferencia inaugural de la Jornada de Data Mining que organizó esa Maestría. El especialista se centró en uno de los proyectos que desarrolla en Nueva Zelanda junto con sus estudiantes. Se trata de lo que se conoce como “wikificación”, es decir, un sistema informático que permite que cualquier documento de Word tenga hipervínculos que lo conecten con artículos de la Wikipedia.

Witten destacó que la Wikipedia representa una gran inversión en esfuerzo intelectual. “En Occidente, en la etapa previa al Renacimiento, el control del conocimiento estaba en manos de la Iglesia. A partir del siglo XV, el control pasó a las universidades. En la actualidad, gracias a la Wikipedia, el conocimiento está a disposición de la gente”, afirmó el especialista de origen británico que desde hace más de veinte años adoptó la ciudadanía neocelandesa.

Wikipedia es una mina de oro, no sólo para los numerosos lectores sino también para los investigadores que la consideran como un recurso de gran utilidad. Es un inmenso tapiz de conceptos y relaciones que está en constante evolución, acotó. Actualizarla y corregirla involucra cientos de miles de horas de trabajo. “Pero, si se consideran las horas que se dedican sólo a mirar publicidad por televisión, se puede entender que haya gente que, en lugar de mirar televisión, prefiera destinar su tiempo libre a contribuir al conocimiento global”, señaló.

No obstante, Wikipedia, creada en 2001, todavía está en la etapa de crecimiento, cambia muy rápido, y no es perfecta. La idea clave es la de “edición colaborativa”. Y es posible rastrear la historia de cada artículo, y cuántas personas han trabajado en él, haciendo su aporte.

Pero ello implica también que haya “guerras de edición”, porque una persona realiza determinados cambios, y otra efectúa correcciones y nuevos cambios. Por otra parte, se han efectuado estudios de confiabilidad de la información, comparando los errores que aparecen en la Wikipedia y en la Enciclopedia Británica. “Según un estudio de la revista Nature, ambas enciclopedias cometen un número equivalente de errores”, comentó Witten.

“Wikipedia es la más abarcadora base de conocimientos del mundo”, subrayó. Incluye más de 20 millones de artículos, en 282 lenguas, escritos por millones de usuarios registrados, e innumerables contribuyentes anónimos, de todo el mundo.

“Con mis estudiantes nos preguntamos cómo explotar esa enorme base de conocimiento. Así surgió el proyecto de wikificación”, relató el conferencista. La idea es partir de un documento de Word, y convertirlo en un texto con múltiples vínculos (hyperlinks) a diversos artículos de la Wikipedia.

Pero esa tarea implica resolver algunos problemas, como la relación semántica entre conceptos, la eliminación de la ambigüedad y la selección del concepto apropiado. Una palabra como “kiwi”, por ejemplo, tiene diversos significados: designa a una fruta, a un ave de Nueva Zelanda, y también da nombre a las personas originarias de esa isla de Oceanía. Para eliminar la ambigüedad, Wikipedia posee una página que permite seleccionar el concepto que uno busca, para no perder tiempo con información que no sea pertinente.

Para eliminar la ambigüedad, es necesario establecer las relaciones semánticas entre los conceptos, y qué términos del artículo a procesar se relacionan con conceptos de la Wikipedia. Para ello, los investigadores aplican un programa que extrae un número, de 1 a 10, que da cuenta de la relación semántica entre dos conceptos, por ejemplo, entre automóvil y calentamiento global. Según Witten, esa relación semántica puede medirse.

¿Cómo lo hacen? A partir de artículos sobre calentamiento global, extraen un conjunto de conceptos centrales, y hacen lo mismo con los textos sobre el automóvil. Luego establecen las redes conceptuales y los nodos coincidentes entre ambas redes. A partir de esa tarea, es posible calcular la coincidencia de sentidos.

Luego de la conferencia, Witten accedió a una entrevista con el Cable. La primera pregunta se refirió al sistema de código abierto Greenstone, creado por Witten, y que fue adoptado por la Biblioteca Central de la Facultad con el fin de digitalizar sus colecciones.

– ¿Qué lo motivó a la creación del sistema Greenstone?

– Fue por pura diversión. Me gusta hacer cosas sólo por diversión. Todo comenzó porque estábamos usando un programa de compresión de textos, y vimos que podía aplicarse para digitalizar libros, fotos y otros materiales.

– ¿Pero el proyecto no tenía un propósito social?

– Luego de unos años comenzamos a trabajar con UNESCO, que auspició este software de código abierto, y en ese momento decidimos que lo mejor era introducir este sistema de bibliotecas digitales en los países en desarrollo, especialmente en África, donde no sólo se necesitan bibliotecas sino también donde, al menos hace unos diez años, había grandes problemas para acceder a Internet. Pues el sistema no sólo permite crear bibliotecas en la Web, sino también almacenarlas en CD-roms. Además, si bien el comienzo de Greenstone se dio en países de África, así como en Afganistán, Vietnam, Pakistán, la India, Armenia, entre otros, pronto comenzó a emplearse también en Europa y los Estados Unidos, así como en Chile y la Argentina.

– ¿Cuál fue la primera aplicación en la Argentina?

– Se empleó para digitalizar materiales, como documentos y fotografías vinculados con la apropiación de niños durante la dictadura de 1976.

– ¿Por qué se llama Greenstone?

– Al comienzo lo denominamos Biblioteca Digital de Nueva Zelanda, pero pensamos que la gente iba a vincular el programa con el país, y queríamos que tuviera un carácter más global. Entonces pensamos en la piedra verde, el jade, que es muy valiosa en Nueva Zelanda. Es una piedra semipreciosa, de gran belleza y dureza, que es muy valorada en la cultura maorí, que la denomina Pounamu. Con ella se hacían joyas y también armas. Así decidimos tomar la palabra en inglés “greenstone” para designar la piedra. Preferimos no utilizar el término maorí, porque podía generar confusión. Tenemos un sistema de data-mining que se llama Weka, que es el nombre maorí de un ave, pero vimos que en inglés suena como la palabra “débil”, que tiene una connotación negativa.

– ¿Qué siente al constatar que este software ha tenido tanta difusión en el mundo?

– Desarrollar un sistema de código abierto no hace que una persona se haga millonaria. Pero tiene la ventaja de que lo puede usar mucha gente. Soy un profesor universitario y recibo un salario razonable. Algunos de mis amigos están tratando de hacer mucho dinero con su investigación, y ponen mucha energía y esfuerzo en ello. A mí, el aspecto comercial me resulta muy aburrido. Prefiero tener la satisfacción de cumplir una meta social.

– Uno de los temas en que usted trabaja es el de los libros “reales”, ¿podría explicarnos algo al respecto?

– La idea es recrear el libro, pero con las herramientas que brinda la informática. Mucha gente piensa que estamos locos, y piensa también que el libro está acabado. Sin embargo, realizamos experimentos con distintos formatos y observamos que, con el formato del libro, los usuarios encuentran la información de manera más rápida. En un formato que simula un libro abierto, los lectores pueden pasar las páginas, y visualizar los bordes tanto de la página izquierda como de la derecha, teniendo una idea de dónde están parados, es decir, de cuánto se leyó y cuánto falta leer todavía.

– ¿Qué opina del avance de la sociedad digital?

– Creo que lo malo es que se buscan fragmentos de información aislados, en lugar de leer un libro completo. La sociedad parece estar obsesionada con los datos, con los pequeños hechos, en lugar de buscar el conocimiento y la sabiduría. Incluso estamos destruyendo nuestra capacidad de conversar. Tener un mayor acceso a la información es positivo, pero los problemas derivan del hecho de que la información está controlada por una o dos grandes compañías, como Google, que nos brinda información mediante métodos que desconocemos. Si hacemos una búsqueda, Google decide qué página mostrarnos, pero ignoramos de qué modo realizó esa elección.

– ¿Eso significa que estamos controlados por Google?

– A los motores de búsqueda los llamo “dragones”. El dragón es una figura interesante, es misterioso y, al mismo tiempo, entraña cierta ambigüedad. Por ejemplo, en China, los dragones son poderosos y misteriosos, pero son buenos. En cambio, en Europa son dañinos y representan el mal. Es decir que el dragón encierra una ambigüedad moral, y creo que sucede lo mismo con los buscadores. Pero lo que me preocupa es que no podamos saber cómo “deciden” estos buscadores cuál es la información que nos tienen que brindar. Creo que ése es un gran problema.

 

Por siempre en la web

– ¿Qué opina de Facebook?

– Mi esposa usa el Facebook todo el tiempo. Pienso que las mujeres mayores son las principales usuarias, pues así se ponen en contacto con sus amistades, y con sus hijos y sus nietos. Desde este punto de vista, es una herramienta maravillosa. Pero, de nuevo, me preocupa el hecho de que esa información va a estar allí por siempre. Al respecto, suelo contar esta historia: en 1979, a través del sistema Usenet, existían numerosos grupos de discusión en que la gente se expresaba en forma muy franca y abierta. Se discutía sobre diversidad sexual, consumo de drogas y muchos otros temas. Pero nadie tenía idea de que esas opiniones podrían ser leídas en el futuro. Pues bien, en el 2000, Google adquirió Usenet y toda esa información estuvo disponible para quien quisiera buscarla. Si usted busca ni nombre, podrá encontrar todas las discusiones en las que participé. Para mí, en particular, no representa ningún problema, pero podría serlo para muchas otras personas. Esas opiniones podrían ser un obstáculo para conseguir un trabajo, por ejemplo. En resumen, en 1979 esa posibilidad era insospechable. El problema es que la información, una vez que está en la web, estará allí por siempre.