¿Cuáles son los puntos clave del segundo juego entre Lee Sedol y AlphaGo desde la perspectiva del Go?
No tengo mucho tiempo para escribir una respuesta larga, así que hablaré brevemente sobre el punto que más me preocupa:
Hay lagunas obvias en el algoritmo. utilizado por los jugadores de ajedrez profesionales para juzgar la situación.
El algoritmo utilizado por los ajedrecistas profesionales para juzgar la situación se puede resumir aproximadamente en una frase: estimar el número de puntos (tamaño del sitio) de diferencia entre los dos lados.
¿Qué pasa si los límites del territorio no están completamente determinados? Si hay un funcionario de primera mano, se otorgará al bando de primera mano. Si hay dos funcionarios de segunda mano, se otorgará a cada persona.
Entonces hay algunas ambigüedades, como ¿en cuántas mallas se convierte un trozo de fuerza gruesa? Esto sólo se puede hacer sintiendo.
Al observar las explicaciones en varias plataformas actuales, el juicio de Ke Jie es probablemente el más preciso. En el medio juego, Ke Jie anotó unos 15 puntos en el tablero negro. Gu Li una vez juzgó la ventaja de Xiao Li, e incluso cuando no había muchos funcionarios, todavía pensaba que era un buen movimiento. Kim Myung-wan es casi igual. McClemmon no escuchó atentamente su juicio, que parecía ser un poco más preciso que el de Gurley. En el movimiento 128, Mi Yuting pensó que todavía era un buen movimiento (en ese momento, Ke Jie ya había juzgado que las negras estaban claramente por delante). No he visto Go TV en absoluto, así que agregue más.
Independientemente de quién sea el juicio más preciso, simplemente podemos echar un vistazo a los juicios de todas las partes en la mano blanca 128. Algunos Ke Jie dijeron que el ajedrez de las negras estaba una cabeza por delante, otros dijeron que el ajedrez estaba bien y algunos incluso dijeron que el ajedrez de las blancas era ligeramente superior. ¡Estos ajedrecistas profesionales pueden diferir en más de un punto al juzgar la misma situación! Esto simplemente demuestra los enormes errores que pueden surgir de la ambigüedad del algoritmo anterior.
Entonces pensemos en dónde puede ocurrir el error. Primero, se otorga al primero en actuar. Sin embargo, en el tablero de ajedrez, "tomar la iniciativa" es un concepto relativo y no es raro ver movimientos inversos. Incluso en algunos casos, no es raro que las personas luchen duro y decidan tomar la iniciativa. En segundo lugar, juicio confuso. El problema es mayor. Las diferencias de los ajedrecistas profesionales a la hora de juzgar el grosor de una pieza de ajedrez probablemente conduzcan a resultados completamente diferentes.
¿Cómo juzga la situación AlphaGo? Parte del portafolio estratégico de AlphaGo es la red de valor. El principio de esta parte no está claro a mi nivel. Para facilitar la comprensión, consideramos el método de juicio de la generación anterior de IA, Zen: estimar la "tasa de ganancias" a través de una gran cantidad de muestras aleatorias. Por ejemplo, en una partida de ajedrez hay 120 movimientos. En este momento, AlphaGo completa aleatoriamente una partida de ajedrez y luego determina qué lado gana la partida completada aleatoriamente. Repita este proceso muchas veces, digamos 100.000 veces, y luego 30.000 veces ganan las negras y 70.000 veces ganan las blancas, entonces se estima que la tasa de victorias de las blancas es 70.
Por supuesto, la red de valor de AlphaGo es mucho más avanzada que el método de Zen, lo que hace que la tasa de ganancia estimada sea más precisa.
AlphaGo no simula las partidas de ajedrez restantes de forma completamente aleatoria, sino que se refiere a los registros del juego anterior y utiliza el selector de movimientos para encontrar los puntos más probables para asegurar la velocidad
Del efecto Juzgar De lo anterior, el efecto de estimar la tasa de ganancias es realmente muy bueno. Y creo que este método de juicio es esencial.
¿Por qué? En primer lugar, debe quedar claro que, aunque en teoría, en una situación determinada, o las negras deben ganar o las blancas deben ganar. Sin embargo, dado que Go no puede ser realmente exhaustivo, sólo podemos recurrir a estimar la probabilidad o estimar la diferencia entre los dos lados como los jugadores de ajedrez humanos. Sin embargo, en muchos casos, la diferencia de malla no tiene sentido.
Por ejemplo (debería haber una imagen aquí), Black determinó que el número de mallas es 70, lo cual no tiene potencial. White determina que el número de mallas es 40 mallas, y hay un gran espacio abierto con potencial de 40 mallas. Si las negras irrumpen inmediatamente y sobreviven, el potencial de 40 goles sólo podrá convertirse en 10 goles reales y las negras ganarán. Si las negras no logran anotar, las blancas quedarán rodeadas de 40 hoyos y las blancas ganarán. Las negras también pueden elegir una eliminación superficial conservadora, luego el potencial de las blancas de 40 mallas se puede convertir en aproximadamente 25 mallas. En esta situación, si eliges una eliminación superficial, aunque al final la brecha se reducirá, las posibilidades de ganar son en realidad muy pequeñas. Desafortunadamente, en esta situación, es difícil para los jugadores de ajedrez profesionales estimar con precisión la probabilidad de ganar y sobrevivir, pero AlphaGo puede hacerlo.
Por lo tanto, los ajedrecistas humanos con ilusiones sintieron que no estaban muy atrás y que no había posibilidad de lograr un gran avance, por lo que optaron por eliminar el ajedrez vacío de las blancas. Como resultado, el potencial de 40 goles de las blancas se convirtió en 25 goles. y las negras sólo tenían 5 goles más en el tablero, perdiendo así. AlphaGo estimó que la tasa de victorias por entrada era 40, mientras que la tasa de victorias por eliminación superficial era sólo 25, por lo que decidió participar. Independientemente de la victoria o derrota final, elegir entrar es obviamente una mejor estrategia.
En otras palabras, si estás sólo "dos ojos por delante" y tienes una tasa de ganancia de 80, y si estás "5 ojos por delante" y tienes una tasa de ganancia de 70, el primero tiene una mayor ventaja, pero los humanos pensarán que este último tiene una ventaja mayor. Éste puede ser el destino de los ajedrecistas humanos.
Lamentablemente, es imposible para los humanos estimar la tasa de ganancias a través de una gran cantidad de muestras aleatorias.