機(jī)械錨栓施工星際爭霸II相助堅持基準(zhǔn)***過S

發(fā)布日期:2022-08-22 10:16:25 瀏覽次數(shù):

機(jī)械之心報道

編纂:杜偉、陳萍

這項(xiàng)使命又讓咱們回到那個舊調(diào)重彈的成果:Transformer 真的是******的嗎?

多智能體強(qiáng)化學(xué)習(xí) (MARL) 是一個具備挑戰(zhàn)性的成果,它不光需要識別每一個智能體的策略改善偏差,而且還需要將單個智能體的策略更新散漫起來,以普及部份功能。***近,這一成果患上到開始解決,有鉆研職員引入了會集磨煉散漫推廣 (CTDE) 的方式,使智能體在磨煉階段可能拜候全局信息。可是,這些方式無奈涵蓋多智能體交互的全副重大性。

事實(shí)上,其中一些方式還被證實(shí)是失敗的。為了解決這個成果,有人提出多智能體劣勢分解定理。在此根基上,HATRPO 以及 HAPPO 算法被推導(dǎo)進(jìn)去??墒?,這些方式也存在規(guī)模性,這些方式依然依附于精心妄想的***大化指標(biāo)。

近些年來,序列模子(SM)在人造語言解決(NLP)畛域取患了素質(zhì)性妨礙。如 GPT 系列、BERT 在寬泛的鄙俚使命上呈現(xiàn)卓越,而且在小樣本泛化使命上取患了較強(qiáng)的功能。

因?yàn)樾蛄心W优c語言的序列特色人造適宜,因此可用于語言使命,可是序列方式不光限于 NLP 使命,而是一種寬泛適用的通用根基模子。比喻,在合計機(jī)視覺 (CV) 中,可能將圖像分割成子圖并將它們按次列部署,就彷佛它們是 NLP 使擲中的 token 同樣 。近期比照馳名的模子 Flamingo、DALL-E 、 GATO 等都有序列方式的影子。

隨著 Transformer 等網(wǎng)絡(luò)架構(gòu)的泛起,序列建模技術(shù)也引起了 RL 社區(qū)的極大關(guān)注,這增長了一系列基于 Transformer 架構(gòu)的離線 RL 開辟。這些方式在解決一些***根基的 RL 磨煉成果方面呈現(xiàn)出了重大的后勁。

盡管這些方式取患了清晰的樂成,但不一種方式被妄想用來建模多智能體系統(tǒng)中***難題 (也是 MARL 特有的) 的方面——智能體之間的交互。事實(shí)上,假如重大地給予所有智能體一個 Transformer 策略,并對于其妨礙徑自磨煉,這依然不能保障能普及 MARL 散漫功能。因此,盡管有少許細(xì)小的序列模子可用,但 MARL 并無真正運(yùn)用序列模子功能劣勢。

若何用序列模子解決 MARL 成果?來自上海交通大學(xué)、Digital Brain Lab、牛津大學(xué)等的鉆研者提出一種新型多智能體 Transformer(MAT,Multi-Agent Transformer)架構(gòu),該架構(gòu)可能實(shí)用地將相助 MARL 成果轉(zhuǎn)化為序列模子成果,其使命是將智能體的審核序列映射到智能體的***優(yōu)措施序列。

本文的指標(biāo)是在 MARL 以及 SM 之間建樹橋梁,以便為 MARL 監(jiān)禁今世序列模子的建模能耐。MAT 的中間是編碼器 - 解碼器架構(gòu),它運(yùn)用多智能體劣勢分解定理,將散漫策略搜查成果轉(zhuǎn)化為序列決定規(guī)畫歷程,這樣多智能體成果就會呈現(xiàn)出線性光陰龐漂亮,***緊張的是,這樣做可能保障 MAT 干燥功能降職。與 Decision Transformer 等先前技術(shù)需要預(yù)先收集的離線數(shù)據(jù)區(qū)別,MAT 以在線策略方式經(jīng)由去自情景的在線試驗(yàn)以及過錯妨礙磨煉。

  • 論文地址:https://arxiv.org/pdf/2205.14953.pdf
  • 項(xiàng)目主頁:https://sites.google.com/view/multi-agent-transformer

為了驗(yàn)證 MAT,鉆研者在 StarCraftII、Multi-Agent MuJoCo、Dexterous Hands Manipulation 以及 Google Research Football 基準(zhǔn)上妨礙了寬泛的試驗(yàn)。服從表明,與 MAPPO 以及 HAPPO 等強(qiáng)基線比照,MAT 具備更好的功能以及數(shù)據(jù)功能。此外,該鉆研還證明了無論智能體的數(shù)目若何變換,MAT 在沒見過的使命上呈現(xiàn)較好,可是說是一個低劣的小樣本學(xué)習(xí)者。

布景常識

在本節(jié)中,鉆研者首先介紹了相助 MARL 成果公式以及多智能體劣勢分解定理,這是本文的基石。而后,他們回顧了現(xiàn)有的與 MAT 相干的 MARL 方式,***后引出了 Transformer。

傳統(tǒng)多智能體學(xué)習(xí)范式(左)以及多智能體序列決定規(guī)畫范式(右)的比力。

成果公式

相助 MARL 成果個別由離散的全副可審核馬爾可夫決定規(guī)畫歷程(Dec-POMDPs)

在了解特殊倒錐錨栓的過程我們知道,它是結(jié)合了普通化學(xué)錨栓和后擴(kuò)底錨栓的優(yōu)點(diǎn)而成的。一方面通過化學(xué)膠粘劑保證錨栓與混凝土體的連接強(qiáng)度,另一方面又通過倒錐體與混凝土機(jī)械鎖鍵保證錨栓與混凝土體的連接強(qiáng)度,具備較好的抗震性能,還具有耐酸堿、耐低溫、耐水漬、耐老化等特點(diǎn)。

來建模。

多智能體劣勢分解定理

智能體經(jīng)由 Q_π(o, a)以及 V_π(o)來評估行動以及審核的值,界說如下。

定理 1(多智能體劣勢分解):令 i_1:n 為智能體的部署。如下公式始終建樹,無需進(jìn)一步假如。

緊張的是,定理 1 提供了一種用于教訓(xùn)若何抉擇漸進(jìn)式改善行動的直覺。

現(xiàn)有 MARL 方式

鉆研者總結(jié)了當(dāng)初兩種 SOTA MARL 算法,它們都構(gòu)建在近端策略優(yōu)化(Proximal Policy Optimization, PPO)之上。PPO 是一種以簡潔性以及功能晃動性馳名的 RL 方式。

多智能體近端策略優(yōu)化(MAPPO)是******將 PPO 運(yùn)用于 MARL 中的***間接方式。

異構(gòu)智能體近端策略優(yōu)化(HAPPO)是當(dāng)初的 SOTA 算法之一,它可能短缺運(yùn)用定理 (1) 以實(shí)現(xiàn)具備干燥降職保障的多智能體信賴域?qū)W習(xí)。

Transformer 模子

基于定理 (1) 中形貌的序列屬性以及 HAPPO 眼前的道理,如今可能直不雅地思考用 Transformer 模子來實(shí)現(xiàn)多智能體信賴域?qū)W習(xí)。經(jīng)由將一個智能體團(tuán)隊視作一個序列,Transformer 架構(gòu)應(yīng)承建模具備可變數(shù)目以及規(guī)范的智能體團(tuán)隊,同時可能防御 MAPPO/HAPPO 的弱點(diǎn)。

多智能體 Transformer

為了實(shí)現(xiàn) MARL 的序列建圭表尺度式,鉆研者提供的解決妄想是多智能體 Transformer(MAT)。運(yùn)用 Transformer 架構(gòu)的思路源于這樣一個事實(shí),即智能體審核序列 (o^i_1,...,o^i_n) 輸入與措施序列(a^ i_1 , . . . , a^i_n)輸入之間的映射是相似于機(jī)械翻譯的序列建模使命。正如定理 (1) 所回避的,措施 a^i_m 依附于先前所有智能體的決定規(guī)畫 a ^i_1:m?1。

因此,如下圖(2)所示,MAT 中包羅了一個用于學(xué)習(xí)散漫審核呈現(xiàn)的編碼器以及一個以自回歸方式為每一個智能體輸入措施的解碼器。

編碼器的參數(shù)用φ 呈現(xiàn),它以恣意挨次獲取審核序列(o^i_1 , . . . , o^i_n),并將它們傳遞經(jīng)由多少個合計塊。每一個塊都由一個自留意力機(jī)制、一個多層感知機(jī)(MLP)以及殘差銜接組成,以防御隨深度削減泛起梯度消逝以及網(wǎng)絡(luò)進(jìn)化。

解碼器的參數(shù)用θ呈現(xiàn),它將嵌入的散漫措施 a^i_0:m?1 , m = {1, . . . n}(其中 a^i_0 是調(diào)唆解碼開始的恣意符號)傳遞到解碼塊序列。至關(guān)緊張的是,每一個解碼塊都有一個掩碼的自留意力機(jī)制。為了磨煉解碼器,鉆研者將如下裁剪 PPO 指標(biāo)***小化。

MAT 中的具體數(shù)據(jù)流如下動圖所示。

試驗(yàn)服從

為了評估 MAT 是否適宜預(yù)期,鉆研者在星際爭霸 II 多智能體挑戰(zhàn)(SMAC)基準(zhǔn)(MAPPO 在之上具備低劣功能)以及多智能體 MuJoCo 基準(zhǔn)上(HAPPO 在之上具備 SOTA 功能)對于 MAT 妨礙了測試。

此外,鉆研者還在 Bimanual Dxterous Hand Manipulation (Bi-DexHands)以及 Google Research Football 基準(zhǔn)上了對于 MAT 妨礙了擴(kuò)充測試。前者提供了一系列具備挑戰(zhàn)性的雙手操作使命,后者提供了一系列足球游戲中的相助場景。

***后,因?yàn)?Transformer 模子個別在小樣轉(zhuǎn)使命上呈現(xiàn)出細(xì)小的泛化功能,因此鉆研者置信 MAT 在未見過的 MARL 使命上也能具備相似細(xì)小的泛化能耐。因此,他們在 SMAC 以及多智能體 MuJoCo 使命上妄想了零樣本以及小樣本試驗(yàn)。

相助 MARL 基準(zhǔn)上的功能

如下表 1 以及圖 4 所示,對于 SMAC、多智能體 MuJoCo 以及 Bi-DexHands 基準(zhǔn)來說,MAT 在簡直所有使命上都清晰優(yōu)于 MAPPO 以及 HAPPO,表明它在同談判異構(gòu)智能體使命上細(xì)小的構(gòu)建能耐。此外,MAT 還患上到了優(yōu)于 MAT-Dec 的功能,標(biāo)明了 MAT 妄想中解碼器架構(gòu)的緊張性。

同樣地,鉆研者在 Google Research Football 基準(zhǔn)上也患上到了相似的功勤勉效,如下圖 5 所示。

MAT 用于小樣本學(xué)習(xí)

表 2 以及表 3 中總結(jié)了每一種算法的零樣本以及小樣本服從,其中粗體數(shù)字呈現(xiàn)***佳功能。

鉆研者還提供了數(shù)據(jù)相同狀態(tài)下 MAT 的功能,其與比力組同樣重新開始磨煉。如下表所示,MAT 取患了大少數(shù)***佳成果,這證明了 MAT 小樣本學(xué)習(xí)的細(xì)小泛化功能。

?
聯(lián)系我們
上海多固建筑科技有限公司
服務(wù)熱線:
400-0188-830
聯(lián)系人:
高經(jīng)理
手機(jī):
18000400666
銷售電話:
0310-6170888
郵箱:
123882644@qq.com
地 址:上海市松江區(qū) 新浜鎮(zhèn)中心路315號135弄
關(guān)注我們獲取
錨固解決方案
網(wǎng)站導(dǎo)航: 化學(xué)錨栓 機(jī)械錨栓 倒錐錨栓 后擴(kuò)底機(jī)械錨栓 sitemap sitemaps 北京SEO支持:中網(wǎng)四極 關(guān)鍵字:化學(xué)錨栓 機(jī)械錨栓 倒錐錨栓 后擴(kuò)底機(jī)械錨栓
友情鏈接: 地鐵螺栓 地腳螺栓 防火涂料 管片螺栓 eps線條設(shè)備 機(jī)械錨栓 管片螺栓 鍋爐除塵器 化學(xué)錨栓 地腳螺栓 vibration calibrator 文物修復(fù) 自行車陽光棚 堆取料機(jī) 邊坡雷達(dá)