La nueva AlphaGo aprende por sí misma y ha vencido a todas las versiones anteriores

Juego de Go. /Flickr
Los desarrolladores de DeepMind crearon un nuevo algoritmo para el programa AlphaGo -un jugador artificial en go-. Comparado con los modelos anteriores, la nueva AlphaGo estuvo orientada estrictamente al aprendizaje por refuerzo. El nuevo sistema obtuvo una victoria absoluta sobre todos sus predecesores. Nature publicó el artículo.
El programa AlphaGo fue presentado por DeepMind, la unidad experimental de Google, en 2015. La primera versión funcionó utilizando dos redes neuronales: una calculaba la probabilidad de movimientos y la segunda estimaba la posición de la piedra en el tablero. AlphaGo se basó casi por completo en el aprendizaje supervisado.
Luego, los desarrolladores de DeepMind mejoraron el algoritmo expandiendo el uso en el sistema de aprendizaje por refuerzo, un tipo de aprendizaje automático, en el cual el algoritmo se adiestra sin tener una muestra de entrenamiento en forma de datos de entrada – respuesta.
A diferencia de sus predecesores, la nueva versión AlphaGo (a su nombre le agregaron Zero) no usa la información obtenida de los jugadores humanos. En cambio, el nuevo algoritmo aprende por sí mismo: toma como datos de entrada las posiciones de piedras blancas y negras y comienza con un juego aleatorio, mejorando la calidad con el tiempo. En cada paso, el algoritmo usa el método de Monte Carlo, calculando la probabilidad del siguiente paso, y también selecciona el siguiente movimiento más efectivo. De esta forma, el nuevo algoritmo aprendió el juego por sí mismo.
El algoritmo entrenó durante unos tres días y en este tiempo logró jugar unos cinco millones de partidas consigo mismo. Luego, los desarrolladores compararon el trabajo de AlphaGo Zero con todas las versiones anteriores, que vencieron a los principales jugadores-humanos. Todas las versiones anteriores perdieron con AlphaGo Zero con una puntuación de 0:100.
De esta forma, los desarrolladores de AlphaGo mostraron que el nivel sobrehumano, según los autores, del juego se puede lograr sin interacción directa con la información recibida de las personas. Lamentablemente, es poco probable que el nuevo algoritmo juegue contra profesionales humanos.
Elizabeth Ivtushok
Si te gustó esta noticia, entérate de más a través de nuestros canales de Facebook y Twitter.
Novedades

La inteligencia artificial y el big data en el sector del entretenimiento
Proteja sus datos personales y comerciales a un nivel superior
La piel de oveja: un inusitado aliado anti fraude de los antiguos abogados
Cómo mejorar la seguridad en una página web
Colombia, Ecuador y Perú comparten gran parte de su biodiversidad agrícola y el dilema por el uso de las semillas nativas o transgénicas. Estas últimas están en vilo porque, a pesar de haber pasado por muchos estudios científicos, todavía hay quienes dudan de su seguridad e impacto tanto en la salud como en el medioambiente.
Transgénicos en los Andes
Países andinos Colombia, Ecuador y Perú viven una encrucijada por el uso y la normativa de los cultivos y alimentos genéticamente modificados
Suscríbete
Déjanos tu mail para recibir nuestro boletín de noticias
Leer también

Terremoto en México
Por qué ha sido tan devastador y su relación con el sismo anterior
A menudo, cuando se discute quién es el superhéroe más poderoso del universo cómic o manga, se habla de fuerza, pero la realidad es que se están mezclando términos científicos. Comprender un poco más la ciencia detrás de los personajes nos llevará a una posible conclusión.
El personaje más fuerte del cómic es…
La Mujer Maravilla es una película, no un documental científico. Está destinada a entretener, no a educar. Aún así, aprovechando su excusa hay muchas escenas que pueden servir para despertar nuestra curiosidad. Eso sí, sin revelar detalles de la película. Después de todo que la protagonista muera en la primera escena no es tan importante…
