推論訓練AI當策略遊戲的AI兼做平衡的方式:

  • 首先當然是要能調整數值的規則,但是規則類型能減少就減少,畢竟越多規則會造成複雜的程式碼
  • 最重要的是要能定義勝負,比如戰棋或者卡牌或者RTS
  • 因為可以定義勝負了,所以可以採用強化學習(Reinforcement learning)去讓AI左右互博
  • 學到一定程度之後,檢查”strategy space” 和 “strategic depth” 如果strategy space太小就是平衡太差,
  • 也就是最終在做的事是盡可能擴大Strategy Space

當然從這個定義可以看出訓練上的困難, 因為AI訓練是要找一個最好可以收斂的方向,比如勝率最終雙方會趨於50:50 (一般來說通常有先發優勢,可能是45:55,舉例來說,麻將就是25:25:25:25,四個高手一起打就是平均值在平手。) 但是我們想要並不是一個收斂的結果,而是盡可能發散的Strategy Space。

反向傳播(Backpropagation)訓練AI是只能往收斂走,無法往發散走的。

其實從遊戲也可以看出這種天生的非對稱性:

  • 策略遊戲玩家經常可以找到較好的策略,甚至因為某幾招特別好用,大家都用同一招了。
  • 策略遊戲製作團隊卻難以找到好的平衡,比如Blizzard遇到平衡問題,就是先nerf再說”我們覺得這樣很cool。”