La inteligencia artificial aprende de sus propios errores

Una creciente rama de la investigación en este campo se dedica a encontrar fórmulas para evitar que esta tecnología se salga de las manos. Estos son sus retos.

iStock

En OpenAI, el laboratorio de inteligencia artificial que fundó el director ejecutivo de Tesla, Elon Musk, las máquinas están aprendiendo solas a comportarse como seres humanos. Pero en ocasiones, les sale mal.

Hace unos días, el investigador Darío Amodei se encontraba sentado en las oficinas de OpenAI en San Francisco, mientras presumía un sistema autónomo que había aprendido por sí mismo a jugar el antiguo videojuego de carreras de lanchas Coast Runners. Gana el jugador que acumule más puntos y que cruce la línea de meta en primer lugar.

El resultado fue sorprendente: la lancha mostraba demasiado interés en las cositas verdes que saltaban en la pantalla. Al atraparlas, acumulaba puntos. En lugar de tratar de completar la carrera, la lancha acumulaba puntos a lo loco. Navegaba en círculos interminables, chocaba con otras embarcaciones, se estrellaba contra muros de piedra y a menudo se incendiaba.

El bote en llamas de Amodei comprobó los riesgos de las técnicas de inteligencia artificial (IA) que están reformulando con rapidez el mundo de la tecnología. Los investigadores están construyendo máquinas que pueden aprender tareas en gran parte por su cuenta.

Es así como el laboratorio DeepMind de Google creó un sistema que podía vencer al mejor jugador del antiguo juego de Go. Sin embargo, conforme estas máquinas aprenden, luego de horas de análisis de datos, también podrían desarrollar conductas inesperadas, indeseables y quizá hasta peligrosas.

Esa es una preocupación que ha surgido a medida que estas técnicas se abren paso hacia los servicios en línea, los dispositivos de seguridad y la robótica. Hoy en día, una pequeña comunidad de investigadores en inteligencia artificial, entre los que se encuentra Amodei, comienza a explorar las técnicas matemáticas que ayuden a evitar que suceda lo peor.

En OpenAI, Amodei y su colega Paul Christiano desarrollan algoritmos que no sólo pueden aprender a realizar tareas a partir de horas de ensayo y error, sino que también reciben asesorías periódicas de profesores humanos durante el proceso.

Con unos clics por aquí y otros por allá, los desarrolladores ahora cuentan con una manera de mostrarle a un sistema autónomo que necesita ganar puntos en Coast Runners, pero también avanzar hacia la línea de meta. Creen que esta clase de algoritmos (una mezcla entre instrucciones humanas y mecánicas) puede ayudar a que los sistemas automatizados sean seguros.

Durante años, Musk, junto con otros eruditos, filósofos y especialistas en tecnología, advirtieron que las máquinas podrían salir de nuestro control y aprender, de alguna manera, conductas dañinas que sus diseñadores no contemplaran. En ocasiones, estas advertencias parecieron fuera de proporción, dado que los sistemas de vehículos autónomos de la actualidad pueden confundirse con las tareas más básicas, como reconocer una ciclovía o un semáforo en rojo.

No obstante, investigadores como Amodei buscan adelantarse a los riesgos. De alguna manera, lo que hacen estos científicos es similar a lo que enseñan los padres a sus hijos cuando quieren que distingan entre lo bueno y lo malo.

Muchos especialistas en el campo de la IA creen que una técnica llamada aprendizaje por refuerzo (una forma para que las máquinas aprendan a realizar tareas específicas mediante ensayo y error) podría ser un elemento básico en el avance hacia la inteligencia artificial. Los investigadores determinan una recompensa especial que la máquina debe esforzarse por obtener y, conforme evalúa una tarea al azar, la máquina recuerda cuáles son los pasos que la llevaron a obtener la recompensa y cuáles no. Cuando OpenAI entrenó a su robot para jugar Coast Runners, la recompensa consistía en obtener más puntos.

Este entrenamiento para videojuegos tiene implicaciones en el mundo real.

Los investigadores creen que si una máquina puede aprender a manejar en un juego como Grand Theft Auto, podría aprender a conducir un auto en la vida real. Si es capaz de utilizar un navegador de internet y otras aplicaciones de software comunes, puede aprender un idioma e incluso a sostener una conversación. En lugares como Google y la Universidad de California en Berkeley, los robots ya han utilizado esta técnica para aprender tareas sencillas como recoger cosas o abrir una puerta.

Por todo lo anterior, Amodei y Christiano trabajan en la creación de algoritmos de aprendizaje por refuerzo que acepten instrucciones humanas sobre la marcha, lo cual podría garantizar que los sistemas no se desvíen de la tarea principal.

Los investigadores de OpenAI, junto con otros del laboratorio DeepMind de Londres, que pertenece a Google, publicaron en fechas recientes parte de su investigación en este rubro. Los dos laboratorios de IA más importantes del mundo, y que en realidad no han trabajado juntos anteriormente, consideran estos algoritmos como un gran paso hacia la investigación relacionada con la seguridad en inteligencia artificial.

“Esto valida gran parte de las ideas previas”, comentó Dylan Hadfield-Menell, investigador de la Universidad de California en Berkeley. “Esta clase de algoritmos promete mucho para los próximos cinco a 10 años”.

El campo es reducido, pero está en crecimiento. A medida que OpenAI y DeepMind forman equipos dedicados a la seguridad en IA, Google hace lo mismo con su laboratorio Google Brain en Estados Unidos. Entretanto, los investigadores de universidades como la de California, en Berkeley, y Stanford trabajan en la solución de problemas similares, y a menudo lo hacen en colaboración con laboratorios de las grandes empresas.

Gran parte de su trabajo es teórico, pero dada la rapidez con la que progresan las técnicas de IA y la relevancia que cobran para tantas industrias, los investigadores creen que la mejor estrategia es comenzar con anticipación.

“Hay mucha incertidumbre respecto a la rapidez con la que se avanzará en el desarrollo de la inteligencia artificial”, afirmó Shane Legg, quien supervisa los trabajos de seguridad en IA en DeepMind. “Un enfoque responsable consiste en comprender las distintas maneras en las que se le puede dar mal uso a esta tecnología, las diversas maneras en las que puede fallar y los varios caminos para resolver estos problemas”.

Entradas populares