1. 无人类数据的纯强化学习
AlphaGo Zero完全摒弃人类棋谱,仅通过自我对弈(左右互搏)学习围棋规则和策略。它从随机初始化开始,在3天内完成490万局自我对弈,仅需4个TPU。
2. 技术革新
1. 对战AlphaGo Lee(2016年击败李世石的版本)
2. 对战AlphaGo Master(2017年击败柯洁的版本)
1. 训练闭环
2. 搜索简化
摒弃传统蒙特卡洛 rollout,直接用神经网络评估棋局价值,减少计算量。
1. 效率与泛化前景
2. 人类棋手的震撼
| 版本 | 训练数据 | 训练资源/时间 | 对抗成就 |
||--|-|-|
| AlphaGo Lee | 3000万人类棋局 | 48个TPU,数月 | 2016年4:1李世石 |
菲律宾环球360官网| AlphaGo Master | 人类棋谱+特征 | 1个TPU | 2017年3:0柯洁 |
| AlphaGo Zero | 零人类数据 | 4个TPU,3天 | 100:0胜Lee,90%胜率对Master |
AlphaGo Zero的自我博弈不仅是AI能力的跃迁,更颠覆了依赖人类经验的传统范式。其技术框架为通用强化学习提供了新路径,但实际应用中仍面临小样本领域验证的挑战。
以便获取最新的优惠活动以及最新资讯!