Así funciona la Inteligencia Artificial campeona de póker

 Futurama: Into the Wild Green Yonder / 20th Century Fox Home Entertainment, 2009

La revista Science publicó un artículo que describe el principio de trabajo del sistema de Inteligencia Artificial (IA) de Libratus. A comienzos de año, la IA venció un torneo de póker de 20 días y ganó a jugadores profesionales 1,7 millones de dólares americanos en fichas. En el nuevo artículo, Noam Brown y Tuomas Sandholm, desarrolladores de Libratus, describieron cómo funciona el algoritmo.

La IA consiste en tres partes principales. Para las primeras rondas de póker, se usa un módulo que trata el juego como una abstracción. En lugar de tener en cuenta todos los puntos de toma de decisión, cuya cifra alcanza 10161, simplifica el juego, teniendo en cuenta los aspectos estratégicos del juego original tanto como sea posible. De este modo, Libratus redondea las apuestas y no distingue entre combinaciones de cartas similares. Después de crear una abstracción, la computadora desarrolla una estrategia de comportamiento planificada para las primeras rondas, y también una estrategia aproximada para las siguientes etapas.

Para aprender a hacer esto, Libratus jugó contra sí mismo usando una versión modificada del algoritmo Monte Carlo Counter-factual Regret Minimization (MCCFR). Con su ayuda, en cada acción se calculó el valor del arrepentimiento -cuánto lamenta el jugador de no haber dado un determinado paso en el pasado-. Durante la simulación, el MCCFR eligió un investigador que tuvo que analizar todas las acciones posibles y actualizar constantemente el valor del arrepentimiento. Al mismo tiempo, su oponente jugó de acuerdo con la estrategia, que se basa en los datos ya disponibles. Al final, este investigador recibió una recompensa por cada acción, gracias a lo cual entendió qué jugada era buena y cuál no. Después de cada juego, los jugadores cambiaron los roles. En la versión clásica, la computadora generalmente explora todas las acciones hipotéticas para entender el tamaño de la recompensa por cada una de ellas. Aquí Libratus dejó pasar movimientos poco interesantes, que tenían un bajo valor de remordimiento, lo que le permitió perfeccionar su trabajo más rápidamente.

Para las siguientes etapas del juego, se utilizó el segundo módulo de Libratus. Este creó una estrategia detallada para una etapa particular del juego, guiándose al mismo tiempo por la estrategia planificada, desarrollada al principio. Cada vez que el contrincante realizaba una acción no prevista por el sistema de IA, ella jugaba un mini-juego, que tomaba en cuenta el movimiento del oponente. Esto le permitió ajustar la estrategia en tiempo real.

La tercera parte de Libratus mejoró la estrategia original del algoritmo. Usualmente para este propósito se construye un modelo de comportamiento del oponente, que toma en cuenta sus posibles errores. Sin embargo, Brown y Sandholm utilizaron datos sobre las apuestas. Durante el día, la computadora observó qué apuestas suelen ser realizadas por otros jugadores, y de noche calculó los posibles escenarios teniendo en cuenta estos datos.

Los autores del artículo creen que sistemas como Libratus tienen un gran futuro en diferentes campos donde se tiene que lidiar con información incompleta. Se pueden utilizar en el campo de la seguridad de la información, en asuntos militares, subastas, negociaciones e incluso en la distribución de medicamentos.

En 2017, una versión mejorada de AlphaGo ganó a otro jugador famoso, Lee Sedol, considerado el mejor del mundo. Ahora AlphaGo Zero ha aprendido a jugar en otros juegos de mesa.

 Kristina Ulasovich

Si te gustó esta noticia, entérate de más a través de nuestros canales de Facebook y Twitter

 

Suscríbete

Déjanos tu mail para recibir nuestro boletín de noticias

La confirmación ha sido enviada a tu correo.