miércoles 1 de diciembre de 2021
- Una innovadora arquitectura para redes neuronales de grafos y una herramienta que permite a los usuarios especificar explicaciones para los sistemas de inteligencia artificial son dos trabajos del IMFD –parte de los Centros ANID– que serán presentados en NeurIPS (Neural Information Processing Systems).
- La conferencia es una de las más relevantes en computación e informática que se realizan a nivel internacional.
Las redes neuronales son la arquitectura más popular hoy en día en machine learning. Sin embargo, los estudios han detectado que estas redes tienen una debilidad: explotan muy poco las estructuras subyacentes de los datos, explica Pablo Barceló, director del Instituto de Ingeniería Matemática y Computacional de la Pontificia Universidad Católica de Chile y Subdirector del Instituto Milenio Fundamentos de los Datos: “Lo que aprenden este tipo de redes son correlaciones, y muy poco de la estructura, lo que las hace menos inteligentes y menos efectivas a la hora de detectar patrones complejos en los datos”.
En muchos casos, esta estructura subyacente de los datos está especificada como un grafo, por ejemplo, podemos pensar en una red social con conexiones entre los participantes, otro ejemplo podría ser las rutas del transporte público: son redes que tienen nodos y conexiones entre esos nodos. “Ahí hay un montón de estructuras que las redes neuronales tradicionales no explotan mucho; las redes neuronales de grafos fueron diseñadas para explotar esa estructura y poder aprender de forma más efectiva esos patrones”. Sin embargo, las redes neuronales de grafos, al ser más potentes, también son más costosas de implementar computacionalmente. “Lo que intentamos hacer en este trabajo es encontrar un compromiso: voy a tratar de tener el máximo poder computacional pero tratando de minimizar el costo que eso implica”.
Dentro de las redes neuronales de grafos, existen modelos más simples y otros más complejos. “Los complejos, al menos teóricamente, parecen ser bien útiles pero se caracterizan por ser implementables y los simples, son demasiados simples. Entonces, tratamos de encontrar algo que permita combinar lo mejor de los dos mundos”.
Esta arquitectura provee un punto intermedio que permite detectar ciertas cosas: por ejemplo, ciclos de cierto tamaño, lo que se llaman cliques que son subgrafos cuyos nodos están todos conectados entre sí, sin incurrir en el costo computacional de las redes más complejas. En este paper, junto a Pablo Barceló trabajaron Floris Geerts y Maksimilian Ryschkov, de la Universidad de Antwerp y Juan Reutter, académico del Departamento de Ciencia de la Computación de la Pontificia Universidad Católica de Chile, profesor del Instituto de Ingeniería Matemática y Computacional UC (en vacante compartida) e investigador del IMFD.
“Foundations of Symbolic Languages for Model Interpretability” es el título del segundo paper aceptado en la conferencia NeurIPS y sus autores son Marcelo Arenas, Daniel Baez, Pablo Barceló, Jorge Pérez y Bernardo Subercaseaux. Arenas, quien dirige el Instituto Milenio Fundamentos de los Datos y también es académico del Instituto de Ingeniería Matemática y Computacional UC (en vacante compartida) y del Departamento de Ciencia de la Computación UC, explica que el documento aborda desafíos fundamentales que hoy existen en ámbitos como el machine learning y la inteligencia artificial.
En ambas áreas, señala, han ido apareciendo aplicaciones y plataformas que operan de manera bastante eficiente en labores como el reconocimiento de imágenes o la traducción de lenguajes. Sin embargo, uno de los problemas que persisten es cómo se explican las respuestas que generan.
Arenas agrega que el problema es que en “la medida que las aplicaciones empiezan a tomar decisiones más sensibles uno tiene que tener explicaciones”. En ese sentido, si un sistema dice que “había un perro en lugar de un gato, no importa, no va a pasar nada. Pero en el caso de un sistema de contratación automática, van a llegar currículums y esa plataforma va a decidir a quién contratar o a quién hacerle una oferta. También podemos hablar de un sistema bancario que va a determinar si me van a dar un crédito, por ejemplo”.
Además, en estos sistemas de contratación automática se ha visto que puede haber discriminación. Se han hecho experimentos con exactamente los mismos currículos, pero «cuando se cambia, por ejemplo, un parámetro como hombre por mujer se ven diferencia en términos de clasificación”, indica el académico.
Este campo se conoce como “Explainable AI” o “Inteligencia artificial explicable” y para abordarlo existen muchas estrategias. Arenas señala que tanto él como los coautores del reporte optaron por un camino distinto al que suelen elegir quienes trabajan en esta área. “En lugar de decir ‘para explicar, vamos a tomar esta medida’ o ‘esta otra’, lo que dijimos fue ‘démosle al usuario la posibilidad de que él pueda explorar el sistema’.
Precisamente ese es el tema central del paper elaborado por Arenas y los demás investigadores. El documento plantea el diseño de “un lenguaje general, donde uno pueda representar este tipo de propiedades que están hablando sobre un modelo de aprendizaje de máquina”. Dicho de otra manera, lo que proponen “es un lenguaje que permite hacer estas consultas con las cuales uno va a ir armando la cadena” de explicaciones de, por ejemplo, por qué a una persona le rechazaron su crédito.
Dicho lenguaje se basa en un tipo de lógica llamada FOIL, que según explica Arenas es una lógica conocida y “tiene un buen balance entre expresividad y complejidad de evaluación”.
El académico aclara que el paper no implica que los autores tengan hoy un sistema donde alguien se pueda sentar para empezar a evaluar su modelo: “Lo que queríamos ver era que los algoritmos que teníamos efectivamente funcionan bien. Aún así, el potencial del estudio es tan alto que los organizadores de NeurIPS decidieron incluirlo en la sección reservada a los papers más destacados y que se conoce como “spotlight”. De las cerca de 10 mil investigaciones que el evento recibe cada año, sólo el 20,1 por ciento es aceptado y apenas el 3 por ciento de ese total es considerado en el apartado de los papers con mayor relevancia.
Fuente: IMFD