国产女人爽的流水毛片,国内少妇人妻偷人精品xxx,2021国产在线无码视频

機(jī)械錨栓施工星際爭霸II相助堅持基準(zhǔn)***過S

發(fā)布日期：2022-08-22 10:16:25 瀏覽次數(shù)：

機(jī)械之心報道

編纂：杜偉、陳萍

這項(xiàng)使命又讓咱們回到那個舊調(diào)重彈的成果：Transformer 真的是******的嗎？

多智能體強(qiáng)化學(xué)習(xí) (MARL) 是一個具備挑戰(zhàn)性的成果，它不光需要識別每一個智能體的策略改善偏差，而且還需要將單個智能體的策略更新散漫起來，以普及部份功能。***近，這一成果患上到開始解決，有鉆研職員引入了會集磨煉散漫推廣 (CTDE) 的方式，使智能體在磨煉階段可能拜候全局信息。可是，這些方式無奈涵蓋多智能體交互的全副重大性。

事實(shí)上，其中一些方式還被證實(shí)是失敗的。為了解決這個成果，有人提出多智能體劣勢分解定理。在此根基上，HATRPO 以及 HAPPO 算法被推導(dǎo)進(jìn)去?？墒?，這些方式也存在規(guī)模性，這些方式依然依附于精心妄想的***大化指標(biāo)。

近些年來，序列模子（SM）在人造語言解決（NLP）畛域取患了素質(zhì)性妨礙。如 GPT 系列、BERT 在寬泛的鄙俚使命上呈現(xiàn)卓越，而且在小樣本泛化使命上取患了較強(qiáng)的功能。

因?yàn)樾蛄心Ｗ优c語言的序列特色人造適宜，因此可用于語言使命，可是序列方式不光限于 NLP 使命，而是一種寬泛適用的通用根基模子。比喻，在合計機(jī)視覺 (CV) 中，可能將圖像分割成子圖并將它們按次列部署，就彷佛它們是 NLP 使擲中的 token 同樣。近期比照馳名的模子 Flamingo、DALL-E 、 GATO 等都有序列方式的影子。

隨著 Transformer 等網(wǎng)絡(luò)架構(gòu)的泛起，序列建模技術(shù)也引起了 RL 社區(qū)的極大關(guān)注，這增長了一系列基于 Transformer 架構(gòu)的離線 RL 開辟。這些方式在解決一些***根基的 RL 磨煉成果方面呈現(xiàn)出了重大的后勁。

盡管這些方式取患了清晰的樂成，但不一種方式被妄想用來建模多智能體系統(tǒng)中***難題 (也是 MARL 特有的) 的方面——智能體之間的交互。事實(shí)上，假如重大地給予所有智能體一個 Transformer 策略，并對于其妨礙徑自磨煉，這依然不能保障能普及 MARL 散漫功能。因此，盡管有少許細(xì)小的序列模子可用，但 MARL 并無真正運(yùn)用序列模子功能劣勢。

若何用序列模子解決 MARL 成果？來自上海交通大學(xué)、Digital Brain Lab、牛津大學(xué)等的鉆研者提出一種新型多智能體 Transformer(MAT，Multi-Agent Transformer)架構(gòu)，該架構(gòu)可能實(shí)用地將相助 MARL 成果轉(zhuǎn)化為序列模子成果，其使命是將智能體的審核序列映射到智能體的***優(yōu)措施序列。

本文的指標(biāo)是在 MARL 以及 SM 之間建樹橋梁，以便為 MARL 監(jiān)禁今世序列模子的建模能耐。MAT 的中間是編碼器 - 解碼器架構(gòu)，它運(yùn)用多智能體劣勢分解定理，將散漫策略搜查成果轉(zhuǎn)化為序列決定規(guī)畫歷程，這樣多智能體成果就會呈現(xiàn)出線性光陰龐漂亮，***緊張的是，這樣做可能保障 MAT 干燥功能降職。與 Decision Transformer 等先前技術(shù)需要預(yù)先收集的離線數(shù)據(jù)區(qū)別，MAT 以在線策略方式經(jīng)由去自情景的在線試驗(yàn)以及過錯妨礙磨煉。

論文地址：https://arxiv.org/pdf/2205.14953.pdf
項(xiàng)目主頁：https://sites.google.com/view/multi-agent-transformer

為了驗(yàn)證 MAT，鉆研者在 StarCraftII、Multi-Agent MuJoCo、Dexterous Hands Manipulation 以及 Google Research Football 基準(zhǔn)上妨礙了寬泛的試驗(yàn)。服從表明，與 MAPPO 以及 HAPPO 等強(qiáng)基線比照，MAT 具備更好的功能以及數(shù)據(jù)功能。此外，該鉆研還證明了無論智能體的數(shù)目若何變換，MAT 在沒見過的使命上呈現(xiàn)較好，可是說是一個低劣的小樣本學(xué)習(xí)者。

布景常識

在本節(jié)中，鉆研者首先介紹了相助 MARL 成果公式以及多智能體劣勢分解定理，這是本文的基石。而后，他們回顧了現(xiàn)有的與 MAT 相干的 MARL 方式，***后引出了 Transformer。

傳統(tǒng)多智能體學(xué)習(xí)范式（左）以及多智能體序列決定規(guī)畫范式（右）的比力。

成果公式

相助 MARL 成果個別由離散的全副可審核馬爾可夫決定規(guī)畫歷程（Dec-POMDPs）

在了解特殊倒錐錨栓的過程我們知道，它是結(jié)合了普通化學(xué)錨栓和后擴(kuò)底錨栓的優(yōu)點(diǎn)而成的。一方面通過化學(xué)膠粘劑保證錨栓與混凝土體的連接強(qiáng)度，另一方面又通過倒錐體與混凝土機(jī)械鎖鍵保證錨栓與混凝土體的連接強(qiáng)度，具備較好的抗震性能，還具有耐酸堿、耐低溫、耐水漬、耐老化等特點(diǎn)。

來建模。

多智能體劣勢分解定理

智能體經(jīng)由 Q_π(o, a)以及 V_π(o)來評估行動以及審核的值，界說如下。

定理 1（多智能體劣勢分解）：令 i_1:n 為智能體的部署。如下公式始終建樹，無需進(jìn)一步假如。

緊張的是，定理 1 提供了一種用于教訓(xùn)若何抉擇漸進(jìn)式改善行動的直覺。

現(xiàn)有 MARL 方式

鉆研者總結(jié)了當(dāng)初兩種 SOTA MARL 算法，它們都構(gòu)建在近端策略優(yōu)化（Proximal Policy Optimization, PPO）之上。PPO 是一種以簡潔性以及功能晃動性馳名的 RL 方式。

多智能體近端策略優(yōu)化（MAPPO）是******將 PPO 運(yùn)用于 MARL 中的***間接方式。

異構(gòu)智能體近端策略優(yōu)化（HAPPO）是當(dāng)初的 SOTA 算法之一，它可能短缺運(yùn)用定理 (1) 以實(shí)現(xiàn)具備干燥降職保障的多智能體信賴域?qū)W習(xí)。

Transformer 模子

基于定理 (1) 中形貌的序列屬性以及 HAPPO 眼前的道理，如今可能直不雅地思考用 Transformer 模子來實(shí)現(xiàn)多智能體信賴域?qū)W習(xí)。經(jīng)由將一個智能體團(tuán)隊視作一個序列，Transformer 架構(gòu)應(yīng)承建模具備可變數(shù)目以及規(guī)范的智能體團(tuán)隊，同時可能防御 MAPPO/HAPPO 的弱點(diǎn)。

多智能體 Transformer

為了實(shí)現(xiàn) MARL 的序列建圭表尺度式，鉆研者提供的解決妄想是多智能體 Transformer（MAT）。運(yùn)用 Transformer 架構(gòu)的思路源于這樣一個事實(shí)，即智能體審核序列（o^i_1，...，o^i_n）輸入與措施序列（a^ i_1 , . . . , a^i_n）輸入之間的映射是相似于機(jī)械翻譯的序列建模使命。正如定理 (1) 所回避的，措施 a^i_m 依附于先前所有智能體的決定規(guī)畫 a ^i_1:m?1。

因此，如下圖（2）所示，MAT 中包羅了一個用于學(xué)習(xí)散漫審核呈現(xiàn)的編碼器以及一個以自回歸方式為每一個智能體輸入措施的解碼器。

編碼器的參數(shù)用φ 呈現(xiàn)，它以恣意挨次獲取審核序列（o^i_1 , . . . , o^i_n），并將它們傳遞經(jīng)由多少個合計塊。每一個塊都由一個自留意力機(jī)制、一個多層感知機(jī)（MLP）以及殘差銜接組成，以防御隨深度削減泛起梯度消逝以及網(wǎng)絡(luò)進(jìn)化。

解碼器的參數(shù)用θ呈現(xiàn)，它將嵌入的散漫措施 a^i_0:m?1 , m = {1, . . . n}（其中 a^i_0 是調(diào)唆解碼開始的恣意符號）傳遞到解碼塊序列。至關(guān)緊張的是，每一個解碼塊都有一個掩碼的自留意力機(jī)制。為了磨煉解碼器，鉆研者將如下裁剪 PPO 指標(biāo)***小化。

MAT 中的具體數(shù)據(jù)流如下動圖所示。

試驗(yàn)服從

為了評估 MAT 是否適宜預(yù)期，鉆研者在星際爭霸 II 多智能體挑戰(zhàn)（SMAC）基準(zhǔn)（MAPPO 在之上具備低劣功能）以及多智能體 MuJoCo 基準(zhǔn)上（HAPPO 在之上具備 SOTA 功能）對于 MAT 妨礙了測試。

此外，鉆研者還在 Bimanual Dxterous Hand Manipulation (Bi-DexHands)以及 Google Research Football 基準(zhǔn)上了對于 MAT 妨礙了擴(kuò)充測試。前者提供了一系列具備挑戰(zhàn)性的雙手操作使命，后者提供了一系列足球游戲中的相助場景。

***后，因?yàn)?Transformer 模子個別在小樣轉(zhuǎn)使命上呈現(xiàn)出細(xì)小的泛化功能，因此鉆研者置信 MAT 在未見過的 MARL 使命上也能具備相似細(xì)小的泛化能耐。因此，他們在 SMAC 以及多智能體 MuJoCo 使命上妄想了零樣本以及小樣本試驗(yàn)。

相助 MARL 基準(zhǔn)上的功能

如下表 1 以及圖 4 所示，對于 SMAC、多智能體 MuJoCo 以及 Bi-DexHands 基準(zhǔn)來說，MAT 在簡直所有使命上都清晰優(yōu)于 MAPPO 以及 HAPPO，表明它在同談判異構(gòu)智能體使命上細(xì)小的構(gòu)建能耐。此外，MAT 還患上到了優(yōu)于 MAT-Dec 的功能，標(biāo)明了 MAT 妄想中解碼器架構(gòu)的緊張性。

同樣地，鉆研者在 Google Research Football 基準(zhǔn)上也患上到了相似的功勤勉效，如下圖 5 所示。

MAT 用于小樣本學(xué)習(xí)

表 2 以及表 3 中總結(jié)了每一種算法的零樣本以及小樣本服從，其中粗體數(shù)字呈現(xiàn)***佳功能。

鉆研者還提供了數(shù)據(jù)相同狀態(tài)下 MAT 的功能，其與比力組同樣重新開始磨煉。如下表所示，MAT 取患了大少數(shù)***佳成果，這證明了 MAT 小樣本學(xué)習(xí)的細(xì)小泛化功能。