[Paper note] Multiagent Bidirectionally-Coordinated Nets for Learning to Play StarCraft Combat Games
Paper: https://arxiv.org/abs/1703.10069 這篇論文是由 Alibaba & UCL共同發表的,並投稿到 NIPS 2017。他們發表了一個 Multi-agent framework 讓 agents 利用共同的 framework 一起學習,他們將這個架構簡稱為 BiCNet。 Attribute of BiCNet Vectorised Actor-Critic: vectorised 指的是一個 input 可以輸入多個 agents的資訊。 Deterministic Policy Use bidirectional RNN as their actor network and critic network Dynamic Grouping 機制 Shared Parameter among all agents 他們使用 BRNN 利用 hidden layer 來 Model agents 之間彼此溝通的行為,這是這篇論文的創新點之一。不過他們團隊並不知道為什麼這樣可行,而僅僅解決了 how 的問題,還不知道 why? 另外精彩的地方我覺得是數學的 Model,他們分為兩個視角來看 Starcraft Combat 問題: 將 Combat 看作 zero-sum stochastic games (recycle) 定義出整體 Combat 的 reward (隨 step 變化) Model agents 之間彼此合作緊密度,是否完成共同目標。利用 Top-K list 記錄和當下 agent 合作的其他 agents。在這裡我稱為一個小 group,後續對應的是 dynamic grouping。在這樣的情況下,他們會共享 reward,好像一個小隊生死與共一樣。 最後,他們利用這樣的 framework 學習到了各種互動的策略 Coordinated moves without collision Hit and Run tactics Coordinated cover attack Focus fire without overkill Collaborations between heterogeneous agents 雖然這篇論