La nueva AlphaGo aprende por sí misma y ha vencido a todas las versiones anteriores

Juego de Go. /Flickr

Los desarrolladores de DeepMind crearon un nuevo algoritmo para el programa AlphaGo -un jugador artificial en go-. Comparado con los modelos anteriores, la nueva AlphaGo estuvo orientada estrictamente al aprendizaje por refuerzo. El nuevo sistema obtuvo una victoria absoluta sobre todos sus predecesores. Nature publicó el artículo.

El programa AlphaGo fue presentado por DeepMind, la unidad experimental de Google, en 2015. La primera versión funcionó utilizando dos redes neuronales: una calculaba la probabilidad de movimientos y la segunda estimaba la posición de la piedra en el tablero. AlphaGo se basó casi por completo en el aprendizaje supervisado.

Luego, los desarrolladores de DeepMind mejoraron el algoritmo expandiendo el uso en el sistema de aprendizaje por refuerzo, un tipo de aprendizaje automático, en el cual el algoritmo se adiestra sin tener una muestra de entrenamiento en forma de datos de entrada – respuesta.

A diferencia de sus predecesores, la nueva versión AlphaGo (a su nombre le agregaron Zero) no usa la información obtenida de los jugadores humanos. En cambio, el nuevo algoritmo aprende por sí mismo: toma como datos de entrada las posiciones de piedras blancas y negras y comienza con un juego aleatorio, mejorando la calidad con el tiempo. En cada paso, el algoritmo usa el método de Monte Carlo, calculando la probabilidad del siguiente paso, y también selecciona el siguiente movimiento más efectivo. De esta forma, el nuevo algoritmo aprendió el juego por sí mismo.

El algoritmo entrenó durante unos tres días y en este tiempo logró jugar unos cinco millones de partidas consigo mismo. Luego, los desarrolladores compararon el trabajo de AlphaGo Zero con todas las versiones anteriores, que vencieron a los principales jugadores-humanos. Todas las versiones anteriores perdieron con AlphaGo Zero con una puntuación de 0:100.

De esta forma, los desarrolladores de AlphaGo mostraron que el nivel sobrehumano, según los autores, del juego se puede lograr sin interacción directa con la información recibida de las personas. Lamentablemente, es poco probable que el nuevo algoritmo juegue contra profesionales humanos.

Elizabeth Ivtushok

Si te gustó esta noticia, entérate de más a través de nuestros canales de Facebook y Twitter.

Suscríbete

Déjanos tu mail para recibir nuestro boletín de noticias

La confirmación ha sido enviada a tu correo.